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术 也 成 为 提升 业务 能 力 的 新 手段 。 比 如 ， 商 品 推荐 系统 对 消费 者 和 商家 
部 有 好 处 ， 它 会 提醒 消费 者 关注 上 自己 可 能 感 兴 趣 的 商品 ， 同 时 也 会 帮助 
商家 赚 取 更 多 的 利 调 。 


然而 ， 大 数据 并 非 数 据 科学 的 全 貌 。 数 据 科 学 是 分 析 和 利用 数据 的 
一 门 综合 性 学 科 ， 甚 范围 涵盖 机 震 学 习 、 统 计 学 和 相关 的 数学 分 文 。 其 
中 ， 机 妖 学 习 占 据 首 要 位 置 ， 它 古 蝶 动 模 式 识 别 和 预测 技术 的 主动 力 。 
机 妖 学 习 算 法 是 数据 科学 的 力量 之 源 ， 它 和 数据 一 起 产生 极其 宇 员 的 知 
H, 并且 帮助 我 们 以 新 的 方式 利用 已 有 信忠。 


对 于 外 行 而 言 ， 要 想 理解 数据 科学 如 何 推动 当前 的 数据 单 命 ， 就 需 
要 对 这 个 领域 有 更 好 的 认识 。 尺 省 现在 对 数据 素养 的 需求 很 大 ， 但 十 由 
于 担心 缺乏 相关 技能 ， 一 些 人 对 数据 科学 倾 域 敬而远之 。 


这 正 是 者 妈 和 川 集 写作 本 书 的 绿 由 有 所在。 我 对 两 位 作者 的 写作 风 
格 较 为 熟悉 ， 在 拜读 本 书 之 后 ， 我 发 现 这 的 确 古 专 为 外 行 写 的 数据 科学 
书 ， 两 位 作者 特意 省 略 了 复杂 的 数学 内 容 ， 从 较 高 的 层次 讲解 相关 概 
念 。 但 请 不 要 误会 ， 这 并 不 意味 着 本 书 役 有 实质 内 容 ， 相 反 ， 干货 
DAY, FP ALTA. 


你 可 能 会 问 : 本 书 采 用 的 讲解 方法 有 什么 好 处 呢 ? 实际 上 好 处 多 
多 ， 并 且 对 于 外 行 来 说 ， 这 种 方法 比 普 通 的 方法 更 可 取 。 假 设 你 对 汽车 
AC EUR PR oh, (EFS, AZ FAL al eR PLA AES AN 
容 ， 你 可 能 更 容易 接受 对 汽车 零 部 件 的 概括 性 介绍 。 了 解数 据 科 学 也 是 
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如 此 : BOA PRATAP USER, BDZ. FER ATH PEREZ OZ A, FC 
从 宽泛 的 概念 入 手 比 较 容 易 。 


第 1 草 通 过 短小 的 篇 幅 讲 了 数据 科学 的 一 些 基本 概念 ， 让 每 一 位 
想 入 门 数据 科学 的 读者 都 拥有 相同 的 知识 基础 ， 接 着 阐述 算法 选择 等 第 
被 入 门类 读物 所 忽略 的 重要 概念 ， 以 此 促使 读者 进一步 了 解数 据 科 学 领 
域 ， 并 为 读者 提供 一 个 完整 的 学 习 框 架 。 


两 位 作者 本 来 可 以 在 书 中 讲解 各 种 数据 科学 概念 ， 而 且 讲 解 方法 也 
有 很 多 。 但 是 ， 他 们 特意 把 讲解 重点 放 在 了 对 数据 科学 极其 重要 的 机 如 
学 习 算 法 上 ， 并 辅 以 相应 的 任务 场景 ， 这 真是 明 管 之 人 淮 。 上 均值 聚 类 、 
决策 树 、 最 近邻 罕 算 法 得 到 了 应 有 的 重视 。 此 外 ， 两 位 作者 还 对 高 级 的 
分 类 和 集成 算法 (比如 支持 向 量 机 ， 它 常 第 因为 复杂 的 数学 问题 而 令 人 
AEDS) 以 及 随机 森林 做 了 讲解 。 当 然 ， 书 中 还 讲 了 神经 网 络 ， 它 是 当 前 
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本 书 的 另 一 个 优点 是， 每 个 算法 的 讲解 都 配 有 直观 的 示例 ， 比 如 通 
过 预测 犯 菲 行为 介绍 随机 森林， 以 及 在 分 析 影 迷 性 格 特征 时 讲 聚 类 。 这 
些 示 例 都 是 作 者 精心 挑选 的 ， 有 助 于 理解 相关 算法 。 与 此 同时 ， 讲 解 并 
设 有 涉及 高 等 数学 知识 ， 这 样 做 有 利于 保持 你 对 数据 科学 的 兴趣 和 学 习 
NA 

如 东 你 正 打 算 学 习 数 据 科 学 或 相关 算法 ， 并 且 正 在 寻求 一 个 切入 


点 ， 那 么 我 强烈 建议 你 阅读 本 书 。 在 我 看 来 ， 本 书 是 无 与 伦比 的 数据 科 
学 入 门 读物 。 有 了 它 ， 数 学 不 再 是 数据 科学 之 路 上 的 拦路 虎 。 


Matthew Mayo 
数据 科学 家 、KDnuggets 编辑 
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本 书 由 分 别 毕 业 于 英国 剑桥 大 学 和 美国 斯 坦 福 大 学 的 数据 科学 爱好 
者 黄 者 婷 和 办 川 集 为 你 呈现 。 


我 们 发 现 ， 虽 然 数据 科学 被 越 来 越 多 地 用 来 改善 决策 ， 但 是 很 多 人 
对 它 知之 其 少 。 览 于 此 ， 我 们 把 一 些 教 程 汇 编 成 书 ， 以 便 更 多 人 学 习 。 
不 管 你 是 心怀 抱负 的 学 生 ， 还 是 商业 精英 或 其 他 什么 人 ， 只 要 你 对 数据 
PAT ibe ay, ABATE ABE 


每 篇 教程 介绍 一 种 数据 科学 技术 ， 并 讲解 其 重要 功能 和 基本 思想 ， 
但 内 容 不 会 涉及 数学 。 此 外 ， 我 们 还 将 结合 现实 世界 中 的 数据 和 实例 对 
这 些 技术 做 具体 前 释 。 

本 书 得 到 了 不 少 朋 友 的 帮助 ， 疫 有 人 他们， 本 书 束 无 法 面世 。 

首先 ， 我 们 要 感谢 Sonya Chan, ， 她 是 本 书 英 文 版 的 文字 编辑 ， 也 是 
我 们 的 好 朋友 。 她 巧妙 地 把 我 们 两 人 的 写作 风格 融合 在 一 起 ， 确 保 将 我 
们 各 目 讲 解 的 内 容 衔 接 得 天 衣 无 缝 。 

其 次 ， 感 谢 Dora Tan， 她 是 一 位 才华 横 洲 的 平面 设计 师 ， 本 书 身 文 
版 的 排版 设计 和 封面 设计 都 出 目 她 之 手 。 

感谢 我 们 的 朋友 Michelle Poh, Dennis Chew 和 Mark Ho， 他 们 提 
出 了 许多 宝 贯 的 建议 ， 使 本 书 读 起 来 更 容易 理解 。 


还 要 感谢 密歇根 大 学 安娜 堡 分 校 的 Long Nguyen 教授 ， 以 及 斯 坦 福 
大 学 的 Percy Liang 教授 和 Michal Kosinski 博士 。 他 们 耐心 地 培养 我 们 ， 
并 且 无 私 地 分 享 自己 的 专业 建议 。 
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最 后 ， 我 们 还 要 感谢 彼此 。 尽 省 有 时 会 争吵 ， 但 我 们 仍然 是 好 朋 
友 。 我 们 一 起 并 肩 作战 ， 直 至 实现 最 初 目 标 。 


电子 书 


扫 揪 如 下 二 维 码 ， 即 可 购 美 本 书 电子 版 。 


为 何 需要 数据 科学 


假设 你 是 年 轻 的 医生 。 有 位 患者 来 到 你 的 诊所 ， 跟 你 抱怨 说 自己 
呼吸 困难 、 胸 部 疼痛 ， 并 侦 尔 伴 有 胃 灼 热 。 于 是 ， 你 给 他 检查 血压 和 心 
率 ， 发 现 一 切 正常 ， 并 且 他 没有 其 他 病史 。 


然后 ， 你 发 现 他 偶 胖 。 由 于 他 说 的 症状 在 体重 超标 的 人 群 中 普 过 存 
在 ， 因 此 你 安奈 他 说 ， 不 用 担心 ， 没 什么 大 问题 ， 并 且 建 议 他 抽空 多 
锻炼 导体 。 


上 述 诊 断 第 第 是 误诊 。 心 脏 病 患者 与 肥胖 症 患 者 表现 出 的 症状 相 
医生 经 营 名 视 这 一 点 ， 而 没有 为 患者 做 进一步 检查 。 如 来 进一步 检 
就 可 能 得 出 更 严重 的 疾病 。 

人 类 的 判断 力 有 一 定 的 局 限 性 ， 有 限 、 主 观 的 经 验 和 不 完备 的 知识 
MRKI E. Gut TR, IEZ ne OR ol pat: ar ze 
对 患者 做 进一步 检查 ， 从 而 无 法 得 到 更 准确 的 诊断 结论 。 
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在 这 种 情况 下 ， 数 据 科 学 下 能 派 上 大 用 场 。 


数据 科学 技术 不 依赖 于 个 人 的 判断 力 ， 它 使 得 我 们 可 以 利用 来 目 多 
个 数据 源 的 信息 做 出 更 好 的 决策 。 例 如 ， 可 以 查看 记录 看 类 似 症 状 的 病 
历 ， 从 中 发 现 先 前 那些 被 名 视 的 诊断 结 来 。 


借助 现代 计算 机 和 高 级 算法 ， 我 们 能 够 做 到 以 下 几 点 。 
O 从 大 型 数据 集中 发 现 隐藏 的 趋 劳 。 
D 充分 利用 发 现 的 趋势 做 预测 。 


O 计算 每 种 结 末 出 现 的 概率 。 
O 快速 获取 准确 结果 。 
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方式 ， 并 且 配 有 大 量 的 插图 。 


数据 都 可 以 从 互联 网 上 获得 2 


。( 不 谈 数 学 ! ) 为 了 帮助 你 理解 主要 概念 ， 本 书 采 用 了 直观 的 解释 


每 种 算法 各 日 成 草 ， 并 且 配 有 应 用 实例 来 解释 其 原理 。 书 中 用 到 的 


数据 科学 做 出 更 好 有 的 决策 


每 一 草 的 最 后 都 有 小 结 ， 便 于 你 复习 这 一 草 学 过 的 内 容 。 本 书 最 后 
附 有 各 种 算法 优 缺 点 的 比较 ， 以 及 稍 用 术语 表 ， 供 你 参考 学 习 。 


我 们 希望 本 书 能 够 让 你 真正 了 解数 据 科 学 ， 并 且 帮 助 你 正确 地 运用 
让 我 们 一 道中 上 数据 科学 之 旅 吧 | 
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O 关于 如 何 获 得 数据 集 , 请 访问 图 灵 社 区 并 点 击 页 面 右 侧 的 “ 随 书 下 载 ”: http://www. 
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基础 知识 


要 想 完全 搞 明 白 数 据 科学 算法 ， 必 须 先 从 基础 知识 学 起 。 本 章 主要 
介绍 数据 科学 的 基础 知识 ， 它 是 本 书 最 长 的 一 革 ， 篇 幅 大 概 是 后 续 各 革 
(讲解 各 种 具体 算法 ) 的 两 倍 。 通 过 学 习 本 蔓 ， 你 将 对 绝 大 多 数 数据 科 
学 研究 涉及 的 基本 步 又 有 大 致 的 了 解 。 这 些 基本 步骤 会 帮助 你 评估 上 下 
文 以 及 约束 条 件 ， 并 选 出 适合 在 研究 中 使 用 的 算法 。 


数据 科学 研究 有 4 个 主要 步骤 。 首 先 ， 必 须 处 理 和 准备 符 分 析 的 数 
据 。 其 次 ， 根 据 研究 需求 挑选 合适 的 算法 。 再 次 ， 对 算法 的 参数 进行 调 
优 ， 以 便 优 化 结 来 。 最 后 ， 创 建 模型 ， 并 比较 各 个 模型 ， 从 中 选 出 好 好 
Hi“ 


1.1 准备 数据 


数据 科学 束 是 天 于 数据 的 科学 。 如 林 数 据 的 质量 差 ， 那 么 分 析 得 再 
精确 也 只 能 得 到 平淡 无 和 奇 的 结 末 。 本 下 将 介绍 数据 分 析 中 各 用 的 数据 格 
式 ， 还 会 涉及 一 些 用 来 改进 结 末 的 数据 处 理 方法 。 


1.1.1 数据 格式 


在 数据 分 析 中 ， 表 格 是 最 第 用 的 数据 表示 形式 ， 如 表 1-1 所 示 。 表 
格 中 的 每 一 行 就 古 一 个 数据 点 ， 代 表 一 个 观测 结 采 ， 每 一 列 古 一 个 变 
量 ， 用 来 描述 数据 点 。 变 量 也 叫 属性 、 特 征 或 维度 。 
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表 1-1 假设 一 些 动物 顾客 去 超市 购物 ， 以 下 十 交易 数据 集 。 每 一 行 代 表 一 


交易， 每 一 列 则 摘 述 交易 的 某 一 方面 信息 


< E. 
变量 


ra i f Cr 
企鹅 


数据 点 
CONN MN BW EA 一 
Gi ON ON Am ON ON Am a 


根据 需求 ， 可 以 更 改 每 行 观测 的 类 型 。 例 如 ， 通 过 表 1-1 这 种 表示 
形式 ， 我 们 可 以 借助 大 量 交 易 来 研究 交易 模式 。 但 是 ， 如 果 想 根据 日 期 
研究 交易 模式 ， 则 需要 以 行为 单位 汇总 每 一 日 的 数据 。 为 了 分 析 得 更 全 
面 ， 可 以 另外 再 添加 几 个 变量 ， 比 如 天 气 等 ， 如 表 1-2 所 示 。 


表 1-2 根据 日 期 汇总 后 的 交易 数据 集 ， 并 且 男 外 添加 了 几 个 变量 


E, 
变量 


21.50 美 元 
11.50 美 元 
19.80 美 元 


11.2 ”变量 类 型 
变量 主要 有 4 类， 正确 区 分 它们 对 于 为 算法 选择 合适 的 变量 至 关 
i 


O 二 值 变 量 : 这 有 是 最 向 单 的 变量 类 型 ， 它 只 有 两 种 可 能 的 值 。 在 
表 1-1, ERKE” Whee (AE 
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数量 
O 连续 变量 : 这 十 最 精细 的 变量 , 用 来 表示 小 数 。 在 表 1-1 P, “X 
出 ”就 是 连续 变量 ， 它 表示 每 位 顾客 化 训 的 金额 。 


原始 数据 集 可 能 包含 许多 变量 。 往 一 个 算法 中 放 入 过 多 变量 ， 可 能 
导致 计算 速度 变 慢 ， 或 者 因 干 扰 过 多 而 产生 错误 的 预测 结 来 。 因 此 ， 需 
要 从 众多 变量 中 划 选 出 那些 与 研究 目标 密切 相关 的 变量 ， 这 个 过 程 就 是 
变量 选择 。 

通 肖 ， 变 量 选 择 是 一 个 试 错 鸭 过 程 ， 需要 根据 反馈 结 末 不 断 更 换 
变量 。 一 开始 ， 可 以 借助 简单 的 图 来 研究 变量 之 间 的 相关 性 GEL 6.5 
方 )， 选 取 那 些 好 有 希望 的 变量 ， 以 待 进一步 分 析 。 


~ 


1.1.4 ”特征 工程 


有 时 候 ， 需 要 做 一 些 处 理 才 能 葡 得 取 佳 变量 。 例 如 ， 如 霖 要 预测 
Ze 1-1 PHU MARA KA, Weta a MARI” SRAM, 
$F. Dk. Art, mea, ARAM 
肉 动物 这 3 大 类 划分 表 中 的 动物 顾客 ， 将 得 到 更 广义 的 结论 : RE) 
HD ANIC fA. 


除了 对 单个 变量 进行 重新 编码 之 外 ， 还 可 以 合并 多 个 变量 ， 这 个 技 
巧 叫 作 降 维 ， 第 3 革 将 进行 讲解 。 降 维 可 以 提取 最 有 用 的 信息 ， 从 而 获 
得 更 精简 的 变量 集 ， 以 供 进 一 步 分 析 。 
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1.1.5 ”缺失 数据 


我 们 收集 的 数据 并 非 总 是 完整 的 。 比 如 ， 在 表 1-1 的 最 后 一 笔 交 
中 ， 水 来 购买 量 就 没有 被 记录 下 来 。 数 据 缺 失 会 妨碍 分 析 ， 因 此 要 尽 可 
能 地 使 用 如 下 一 些 方法 来 解决 数据 缺失 问题 。 


口 近似 : 如 末 缺 失 值 所 属 的 类 型 为 二 值 变 量 或 分 类 变量 ， 那 么 可 
以 使 用 该 变量 的 众 数 〈 即 出 现 次 数 最 多 的 那个 值 ) 来 替换 它 。 
各 缺失 值 属 于 整 型 变量 或 连续 变量 ， 则 可 以 使 用 中 位 数 来 蔡 换 
它 。 利 用 这 个 方法 ， 可 以 将 表 1-1 中 的 缺失 值 殖 换 为 5， 即 猫 购 
SEIS 个 水 采 ， 因 为 其 他 7 笔 交 易 中 水 来 购 买 量 的 中 位 数 为 5。 

O 计算 : 对 于 缺失 值 , 还 可 以 使 用 更 高 级 的 监督 学 习 算 法 〈 详 见 1.2 
"ml 将 它 计 算出 来 。 虽 然 计 算 更 耗 时 ,但 是 所 得 到 的 数值 更 准确 ， 
这 是 因为 算法 基于 类 似 交 易 来 估算 缺失 值 ， 这 一 后 与 近似 方法 
(GRRE) 有 所 不 同 。 从 表 1-1 可 知 ， 买 鱼 的 顾客 购买 
的 水 示 往 往 比 较 少 ,因此 推断 猫 购 半 的 水 采 大 约 只 有 2 个 或 3 个 。 

O BR: 万 不 得 已 时 ， 可 以 把 包含 缺失 值 的 整 行 数据 移 除 。 但 是 ， 
尽量 不 要 这 样 做 ， 因 为 这 会 减少 分 析 时 可 用 的 数据 量 。 而 且 ， 
移 除数 据点 可 能 会 寻 致 数据 样本 倾 癌 或 偏离 特定 的 群体 。 例 如 ， 
猫 可 能 不 太 愿 意 公 开 目 己 所 购 水 末 的 数量 ， 如 东 把 未 记录 水 采 
购买 量 的 顾客 移 除 ， 那 么 最 终 的 样本 就 会 丢失 有 关 猫 的 数据 。 


处 理 完 数据 集 之 后 ， 就 该 对 数据 集 进 行 分 析 了 。 


1.2 选择 算法 


本 书 将 讨论 10 多 种 用 于 分 析 数 据 的 算法 。 如 何 选 择 算 法 ， 取 决 于 
任务 类 型 。 任 务 大 致 可 以 分 为 3 大 类 ， 每 一 类 对 应 一 些 算法 ， 如 表 1-3 
所 示 。 


表 1-3 各 种 算法 及 其 对 应 的 任务 类 型 


k WERK 
主 成 分 分 析 
关联 规则 
社会 网 络 分 析 


回归 分 析 

上 最 近邻 
LFH EHL 
决策 树 
随机 森林 
神经 网 络 


多 辟 老 虎 机 


1.2.1 无 监督 学 习 
任务 目标 : 指出 数据 中 隐藏 的 模式 。 


当 斋 望 找 出 数据 集中 隐藏 的 模式 时 ， 可 以 使 用 不 均值 聚 类 、 主 成 分 
分 析 、 关 联 规则 、 社 会 网 络 分 析 等 无 监督 学 习 算 法 。 之 所 以 称 之 为 无 监 
督学 习 算 法 ， 是 因为 我 们 不 知道 要 找 的 模式 是 什么 ， 而 是 要 依靠 算 法 从 
数据 集中 发 现 模式 .。 

以 表 1-1 中 的 数据 为 例 ， 可 以 应 用 无 监督 学 习 模 型 找 出 哪些 商品 是 
顾客 经 常 搭配 购买 的 (其 中 会 用 到 第 4 半 讲 解 的 关联 规则 算法 )， 或 者 
根据 购买 的 商品 对 顾客 进行 分 类 (第 2 草 将 进行 讲解 ) 。 


通过 间接 手段 ， 可 以 对 无 监督 学 习 模 型 输出 的 结 来 进行 验证 ， 比 如 
检查 得 到 的 顾客 分 类 是 否 与 我 们 熟悉 的 分 类 (如 食 草 动物 和 食肉 动物 ) 


Gh 
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12.2 ”监督 学 习 
任务 目标 : 使 用 数据 中 的 模式 做 预测 。 


当 需 要 做 预 负 时 ， 束 会 用 到 回归 分 析 、K 节 近邻 、 文 持 癌 量 机 、 决 
菏 树 、 随 机 和 猴 林 、 和 神经 网 络 等 监督 学 习 算 法 。 之 所 以 称 之 为 监督 学 习 算 
法 ， 征 因为 它们 的 预测 都 基于 已 有 的 和 模式。 


以 表 1-1 中 的 数据 为 例 ， 监 督学 习 模 型 可 以 根据 “顾客 类 别 ” 以 及 
“是 否 买 包 ”( 二 者 丝 为 预测 变量 ) 来 预测 “水 果 购 买 量 ”。 


通过 输入 非 表 中 顾客 的 预测 变量 值 〈《 顾客 类 别 ” 和 “是否 买 旬 )， 
并 且 对 比 预测 结 末 和 实际 的 “水 来 购买 量 *"， 可 以 直接 评估 监督 学 习 模 
型 的 准确 度 。 


像 “ 水 果 购 买 量 ” 这 样 的 整 型 数值 或 连续 数值 的 预测 过 程 ， 实 蒜 
上 是 在 解决 回归 问题 ， 如 图 1-1a 所 示 。 二 元 值 或 分 类 值 的 预测 过 程 ， 
如 预测 是 否 会 下 雨 ， 则 是 在 解决 分 类 问题 ， 如 图 1-1b 所 示 。 尽 管 如 
此 ， 大 部 分 分 类 算法 也 可 以 生成 连续 的 概率 值 ， 比 如 预测 “降水 概率 是 
75%”， 这 种 预测 精度 更 高 。 


(a) 回归 (b) 分 类 
图 1-1 回归 会 产生 一 条 趋势 线 ， 而 分 类 则 会 把 数据 点 分 组 。 请 注 候 ， 这 两 项 
任务 都 可 能 出 错 : 在 回归 过 程 中 ， 茶 些 数据 点 可 能 会 远离 趋势 线 ， 在 
分 类 过 程 中 ， 茶 些 数 据点 可 能 被 错误 地 分 组 


1.3 参数 调 优 | 7 


1.2.3 KZJ 


任务 目标 : 使 用 数据 中 的 模式 做 预测 ， 并 根据 越 来 越 多 的 反馈 
结果 不 断 改 进 。 


无 监督 学 习 模 型 和 监督 学 习 模 型 在 部 署 之 后 便 无 法 更 改 。 不 同 于 
此 ， 强 化 学 习 模 型 日 身 可 以 通过 反馈 结 朱 不 断 改进 。 


暂且 抛 开 表 1-1 中 的 动物 顾客 ， 让 我 们 举 一 个 实际 的 例子 : 假设 要 
比较 两 个 在 线 广告 的 效 末 。 首 先 ， 让 这 两 个 广告 的 投放 频率 一 样 ， 然 后 
确定 每 个 广告 的 所 击 人 数 。 接 着 ， 利 用 踢 化 学 习 模 型 把 氮 击 人 数 作为 衡 
量 广告 受 欢 迎 程度 的 指标 ， 并 根据 这 个 指标 提高 受 欢迎 广告 的 投放 频 
率 。 通 过 这 样 的 从 代 过 程 ， 模 型 不 断 得 到 改进 ， 最 终 会 让 广告 投放 取得 
更 好 的 效果 。 


124 注意 事项 


除了 要 了 解 算法 适用 的 任务 类 型 之 外 ， 还 要 了 解 它 们 在 其 他 方面 的 
不 同 ， 比 如 各 种 算法 对 不 同 数据 类 型 的 分 析 能 力 ， 以 及 结 东 的 本 质 。 接 
下 来 的 各 半 在 介绍 相应 的 算法 时 将 具体 讲解 。 此 外 ， 附 录 A 和 附 孙 也 


将 分 别 总 结 无 监督 学 习 算 法 和 监督 学 习 算 法 的 特 所。 


1.3 Baan 


在 数据 科学 中 ， 可 用 的 算法 有 很 多 。 利 用 这 些 算 法 ， 可 以 得 到 很 多 
不 错 的 模型 。 然 而 ， 即 便 是 同一 个 算法 ， 如 采 参 数 调 得 不 一 样 ， 所 产生 
的 结 采 也 各 不 相同 。 


参数 选项 用 来 调节 算法 的 设置 ， 束 像 调 市 收音 机 的 频道 一 样 。 不 
同 的 算法 有 不 同 的 调节 参数 。 附 录 C 将 列 出 本 书 所 讲 算 法 常用 的 调节 
参数 。 
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党 无 疑问 ， 如 采 模 型 的 参数 调 得 不 合适 ， 它 的 准确 度 束 会 受 影 啊 。 
举例 来 说 ， 同 一 个 分 类 算法 在 区 分 检点 和 蓝 点 时 可 能 产生 多 个 边界 ， 如 
1-2 所 示 。 


(a) 过 拟 合 (b) 理想 拟 合 (c) RWE 
1-2 Heil BO tal BEA PAY HES AS 


在 图 1-2a 中 ， 算 法 过 度 敏感 ， 它 把 数据 中 的 随机 波动 错误 地 当成 
持久 模式 ， 这 就 是 常 说 的 过 拟 合同 题 。 过 拟 合 模型 对 当前 数据 有 着 很 高 
的 预测 准确 度 ， 但 是 对 未 知 数据 多 预测 准 确 度 较 凌 ， 也 就 是 说 ， 过 拟 合 
模型 的 沁 化 能 力 不 强 。 


相反 ， 在 图 1-2c 中 ， 算 法 过 于 患 钝 ， 它 名 视 了 数据 中 的 基本 模式 ， 
这 就 是 大 拟 合同 题 。 欠 拟 合 模型 很 可 能 会 名 视 数据 中 的 重要 趋势 ， 这 会 
导致 模型 对 当前 数据 和 未 知 数据 的 预测 准确 度 下 降 。 


如 琳 参 数 调 得 恰好 合适 ， 算 法 就 能 在 识别 主要 趋势 和 名 视 微小 变化 
之 则 找到 平衡 ， 使 最 终 得 到 的 模型 非 第 适合 做 预测 ， 如 图 1-2b 所 示 。 


对 于 大 多 数 模 型 而 言 ， 过 拟 合 是 第 见 回 题 。 为 了 最 大 限度 地 减少 预 
测 误差 ， 可 能 会 增加 预测 模型 的 复杂 度 ， 从 而 导致 出 现 如 图 1-2a 所 示 
的 结 琳 ， 即 预测 边界 过 度 复 厅 。 


控制 模型 束 体 复杂 度 的 一 种 方法 是 ， 通 过 正则 化 5| 入 惩罚 参数 。 这 
个 新 参数 会 通过 人 为 增 大 预测 误差 ， 对 模型 复杂 度 的 增加 进行 惩 列 ， 从 
而 使 算法 同时 考虑 复杂 度 和 准确 度 。 使 模型 保持 人 简单 有 助 于 提高 模型 的 


沁 化 能 


1.4 评价 模型 | 9 


1.4 ”评价 模型 


建 好 模型 之 后 ， 必 须 对 它 进 行 评价 。 我 们 经 第 会 使 用 一 些 评 价 指标 
来 比较 模型 的 预测 准确 度 。 对 于 如 何 定 义 和 鼻 缠 不 同类 型 的 预测 误差 ， 
不 同 的 评价 指标 各 不 相同 。 


接 下 来 ， 我 们 将 探讨 3 种 沼 用 的 评价 指标 ， MERE, Hië 
和 均 方 根 误差 。 根 据 学 习 目 标的 要 求 ， 有 时 其 至 会 设计 新 的 评价 指标 ， 
以 便 针 对 特定 类 型 的 误差 进行 惩 如 和 规避 。 所 以 ， 本 书 讲解 的 评价 指标 
并 韭 面面俱到 。 有 关 评 价 指标 的 更 多 例子 ， 请 参考 附录 D. 


1.4.1 分 类 指标 


关于 预测 准确 率 ， 最 简单 的 定义 就 是 正确 的 预测 所 占 的 比例 。 回 到 
K 1-1 的 例子 ， 对 买 鱼 与 否 的 预测 准确 率 ， 可 以 这 样 表述 ， 在 预测 某 位 
顾客 是 否 买 鱼 时 ， 我们 的 模型 在 90% 的 时 间 里 都 是 对 的 。 虽 然 预 测 准 确 
率 这 个 指标 很 容易 理解 ， 但 我 们 无 法 通过 它 得 知 预测 误差 是 如 何 产 生 的 。 


混 清和 矩 阵 可 以 让 我 们 进一步 了 解 预 测 模型 的 优 缺 后 。 


从 表 1-4 可 知 ， 虽 然 模 型 的 总 体 分 类 准确 率 古 90%， 但 相 比 于 对 顾 
客 买 鱼 的 预测 ， 它 对 不 买 鱼 的 预测 更 淮 确 。 此 外 ， 假 正 类 型 和 假 负 类 型 
的 预测 错误 一 样 多 ,分 别 有 5 个 错误 。 


表 1-4 混 请 矩阵 揭示 了 模型 在 预测 严 鱼 与 个 时 的 准确 度 
TMS 


在 东 些 情况 下 ， 分 辨 预测 错误 的 类 型 至 天 重要 。 以 地 震 了 预测 为 例 ， 
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假 负 类 型 的 错误 〈 即 预测 不 会 发 生地 震 ， 实 际 上 却 发 生 了 ) 所 付出 的 代 
价 要 远 高 于 假 正 类 型 的 错误 ( 即 预 测 会 发 生地 震 ， 实 际 上 却 未 发 生 )。 


1.4.2 回归 指标 


由 于 回归 预测 使 用 连续 值 ， 因 此 误差 一 般 被 量化 成 预测 值 和 实际 值 
之 差 ， 惩 罚 随 误差 大 小 而 不 同 。 均 方 根 误差 征 一 个 稍 用 的 回归 指标 ， 尤 其 
可 用 于 避免 较 大 的 误差 : 因为 每 个 误差 都 取 了 平方 ， 所 以 大 旋 老 融和 锌 放大 
了 。 这 使 得 均 方 根 误差 对 异 稍 值 极其 敏感 ， 对 这 些 值 的 惩罚 力度 也 更 大 。 


1.4.3 ”验证 


指标 并 不 能 完整 地 体现 模型 的 性 能 。 过 拟 合 模型 (有 关内 容 请 参考 
1.3 节 ) 在 面 对 当前 数据 时 表现 良好 ， 但 是 在 面 对 新 数据 时 可 能 表现 得 
很 精 糕 。 为 了 避免 出 现 这 种 情况 ， 必 须 使 用 合适 的 验证 过 程 对 模型 进行 
评价 。 


验证 是 指 评估 模型 对 新 数据 的 预测 准确 度 。 然 而 ， 在 评估 模型 时 ， 
并 不 一 定 非 要 使 用 新 数据 ， 而 古 可 以 把 当前 的 数据 集 划 分 成 两 部 分 : 一 
部 分 是 训练 集 ， 用 来 生成 和 调整 预测 模型 ， 为 一 部 分 古 测 试 集 ， 用 来 充 
当 新 数据 并 评估 模型 的 预测 准确 度 。 最 好 的 模型 ， 针 对 测试 集 所 做 的 预 
济 一 定 十 最 准确 的 。 为 了 使 验证 过 程 行 之 有 效 ， 需 要 不 市 偏 硅 地 把 数据 
扩 随 机 分 派 到 训练 集 和 神 试 集中 。 


然而 ， 如 采 原 始 数据 集 很 小 ， 可 能 无 法 留 出 足够 的 数据 来 形成 测试 
集 ， 因 为 当 用 于 训练 模型 的 数据 较 少 时 ， 准 确 度 无 法 得 到 你 障 。 为 了 解 
决 这 个 问题 ， 有 人 提出 了 交叉 验证 这 个 方法 : 使 用 同一 个 数据 集 进行 训 
SSC 


区 叉 难 证 最 大 限度 地 利用 了 可 用 的 数据 ， 它 把 数据 集 划 分 成 右 干 
组 ， 用 来 对 模型 进行 反复 测试 。 在 单 次 妈 代 中 ， 除 了 示 一 组 以 外 ， 其 他 
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各 组 卿 被 用 来 训练 预测 模型 ， 然后， 留 下 的 那 组 被 用 来 测试 模型 。 这 
1-3 TAR. 


分 组 


训练 测试 结 采 2 


图 1-3 数据 集 的 交叉 验证 过 程 。 数 据 集 被 划分 成 4 组 ， 模 型 最 终 的 预测 准确 
度 是 4 个 结果 的 平均 值 

由 于 每 次 友 代 用 来 做 预测 的 数据 各 不 相同 ， 因 此 每 次 得 到 的 预测 结 

朱 都 不 同 。 综 合 和 考虑 这 些 差异 ， 就 可 以 对 模型 的 实际 预测 能 力 做 出 更 为 

可 靠 的 评估 。 对 所 有 评 佑 结 东 取 平 均值 ， 即 为 预测 准确 度 的 最 终 评 佑 值 。 


如 末 交 叉 验 证 结 未 表明 模型 的 预测 准确 度 较 低 ， 可 以 重新 调整 模型 
的 参数 或 者 重新 处 理 数据 。 


1.5 人 小结 


数据 科学 了 研究 有 4 个 关键 步骤 。 


(1) ER BCH 

(2) 选择 算法 ， 为 数据 建立 模型 。 
(3) 调整 算法 参数 ， 优 化 模型 。 
(4) 根据 准确 度 评价 模型 。 


2.1 找 出 顾客 群 


让 我 们 聊 聊 电影 喜好 这 个 话题 。 如 采 一 个 人 喜欢 《 杞 恋 50 次》 这 
部 电影 ， 那 么 他 或 她 很 可 能 也 喜欢 类 似 的 “女性 电影 ， 比 如 《27 BFL 
服 》。 这 束 定 聚 类 的 原理 ， 即 通过 识别 共同 的 喜好 或 特征 ， 把 顾客 分 组 ， 
以 供 雪 售 商 有 针对 性 地 投放 广告 。 


然而 ， 给 顾客 分 组 并 非 易 事 。 我 们 可 能 一 开始 并 不 知道 应 该 如 何 分 
组 ， 也 不 知道 应 该 分 多 少 组 。 


上 均值 聚 类 可 以 帮 有 我 们 回答 这 些 问 题 。 这 个 方法 可 以 用 来 把 顾客 或 
产品 分 和 不同 的 群 组 ， 其 中 大 表示 和 群 组 个 数 。 


2.2 示例 : 影迷 的 性 格 特征 


为 了 使 用 均值 聚 类 方法 找 出 顾客 群 ， 需 要 可 量化 的 顾客 信息 。 一 
个 肖 用 的 变量 是 收入 ， 因 为 与 低 收入 顾客 群 相 比 ， 高 收入 顾客 群 往往 更 
喜欢 购买 名 牌 和 商品。 这样 一 来 ， 商 家 了 束 可 以 利用 这 个 信息 加 高 收入 顾客 
群 投放 奢侈 品 广告 。 


性 格 特征 是 另 一 个 常用 的 变量 。 在 一 项 针对 Facebook 用 户 的 研究 
中 ， 人 研究 人 员 邀 请 用 户 参 与 回 卷 调查 ， 以 了 解 他 们 在 4 种 性 格 特征 上 
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的 得 分 : 外 向 型 (对 社会 交往 的 喜欢 程度 )、 尽 员 型 (工作 努力 程度 )、 
情绪 型 ( 受 压力 影响 的 程度 ) 以 及 开放 型 (对 新 事物 的 接受 程度 )。 


饱 步 分 析 表 明 ， 这 些 性 格 特征 之 间 存 在 正 相 关 关 系 。 高 度 尽 贡 的 人 
往往 更 外 疝 ， 高 度 情绪 化 的 人 则 往往 更 开放 。 因 此 ， 为 了 更 好 地 对 这 些 
性 格 特征 进行 可 视 化 ， 将 它们 两 两 配对 一 一 外 同型 和 尽责 型 、 情 绪 型 和 
开放 型 一 一 并 统计 每 对 的 得 分 ， 然 后 在 二 维 图 中 标 出 。 


接 下 来 ， 把 每 个 人 的 总 得 分 与 他 或 她 在 Facebook 上 点 赞 的 电影 页 
面 进 行 匹 配 。 这 样 一 来 ， 束 可 以 通过 不 同 的 性 格 特征 给 影 述 分组， 如 
图 2-1 所 示 。 


在 图 2-1 中 ， 可 以 看 到 两 个 主要 群 组 。 


O 红色 : 外 加 又 尽责 的 影迷 ， 他 们 喜欢 动作 片 和 爱情 上 请 。 
O 监 色 : 情绪 化 又 开放 的 影迷 ， 他 们 喜欢 先锋 艺术 族 和 和 柯 幻 族 。 


除了 这 两 个 群 组 外 ， 中 间 部 分 的 电影 好 像 症 大 家 都 喜欢 的 。 


根据 这 些 信息 ， 可 以 对 广告 投放 进行 规划 。 如 采 一 个 人 喜欢 《 杨 恋 
50 次 》， 那 么 束 可 以 同 他 或 她 推 存 同一 个 群 组 中 的 其 他 电影 ， 或 者 捆绑 
类 似 产 品 进行 促销 。 
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2.3 ”定义 群 组 
在 定义 群 组 时 ， 必 须 回答 两 个 问题 。 


O Aa HAA? 
O 每 个 群 组 中 有 谁 ? 


2.3.1 有 多 少 个 群 组 


这 个 问题 很 主观 。 虽 然 在 图 2-1 中 有 两 个 群 组 ， 但 它们 可 以 被 进 一 
步 划 分 。 例 如 ， 监 色 群 组 可 以 被 进一步 划分 成 两 个 子 群 组 故事片 ( 包 
括 《 估 慢 与 偏见 》 和 《早餐 俱乐部 》) 和 和 奇幻 片 (包括 《 巨 暴 与 圣杯 》 
和 《和 至 小 子 斯 科 特 》)。 


随 着 和 群 组 数量 增加 ， 每 个 群 组 中 的 成 员 彼此 越 来 越 相似 ， 相 邻 群 组 
之 则 的 区 别 则 越 来 越 不 明显 。 在 极端 情况 下 ， 每 个 数据 点 本 时 就 是 一 个 
群 组 ， 但 这 种 分 组 方式 灾 无 意义 。 


显然 ， 在 决定 群 组 数量 时 必须 有 所 权衡 。 甫 先 ， 群 组 数量 要 足够 
大 ， 以 便 提取 有 意义 的 模式 ， 用 作 商 业 决 策 参 浪 ， 其 次 ， 还 要 足够 小 ， 
能 够 确保 各 个 群 组 之 间 有 明显 的 区 别 。 


要 确定 合适 的 群 组 数量 ， 一 种 方法 是 使 用 陡坡 图 ， 如 图 2-2 所 示 。 


群 组 内 散 度 
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群 组 数量 
图 2-2 ”弯曲 的 陡坡 图 表明 存在 两 三 个 和 群 组 
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陡坡 图 可 以 展现 群 组 内 散 度 随 群 组 数量 增加 而 降低 的 过 程 。 奋 所 有 
成 员 都 属于 同一 个 群 组 ， 则 和 群 组 内 散 度 将 达到 最 大 值 。 随 着 和 群 组 数量 增 
加 ， 各 个 群 组 变 得 更 紧 浴 ， 群 组 成 员 也 变 得 更 相似 。 


陡坡 图 曲线 的 抛 这 处 表示 了 节 佳 群 组 数量 ， 此 处 的 群 组 内 散 度 较为 合 
理 。 从 图 2-2 可 以 看 到 ， 当 群 组 数量 为 2 时 ， 曲 线 抛 地 ， 这 两 个 群 组 对 
应 于 图 2-1 中 的 两 个 主要 的 电影 群 组 。 当 和 群 组 数量 为 3 时， 曲线 再 次 抛 
E (尽管 不 如 前 一 个 明显 )， 这 意味 着 可 以 分 出 第 3 个 群 组 ， 即 普遍 受 
欢迎 的 电影 。 但 征 ， 帮 继续 增加 群 组 数量 ， 会 导致 群 组 变 小 ， 还 会 增 大 
区 分 各 个 和 群 组 的 难度 。 


人 确定 好 合适 的 群 组 数量 之 后 ， 就 该 确定 每 个 群 组 的 成 员 了 。 
2.3.2 每 个 群 组 中 有 谁 


群 组 成 员 是 在 迭代 过 程 中 确定 的 ， 下 面 以 2 个 群 组 为 例 进 行 讲解 ， 
如 图 2-3 所 示 。 


步骤 3 步骤 4 
图 2-3 大 均值 聚 类 方法 的 迭代 过 程 
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因为 群 组 最 好 由 密集 的 数据 点 组 成 ， 所 以 通过 检查 群 组 成 员 与 群 组 中 
心 扩 的 距离 ， 便 可 以 判断 该 群 组 的 有 效 性 。 不 过 ， 由 于 中 心 扩 的 位 置 最 初 
征 未 知 的， 因此 只 能 先 预 佑 ， 然 后 把 数据 点 分 配给 离 它 们 最 近 的 中 心 点 。 


接 下 来 ， 不 断 调整 中 心 点 的 位 置 ， 直 至 与 真实 的 位 置 重合 。 而 后 ， 
根据 各 数据 点 与 中 心 点 的 跑 离 ， 重 新 为 每 个 数据 点 分 配 群 组 。 如 采 茶 个 
数据 点 离 原先 所 在 群 组 的 中 心 点 较 还 ， 而 离 邻 近 群 组 的 中 心 点 较 近 ， 那 
就 把 它 重 新 划 入 邻近 的 群 组 。 


集 单 总 结 一 下 ， 为 群 组 确定 成 员 的 过 程 包 舍 如 下 步 台 。 不 省 群 组 数 
量 有 和 多少， 这 些 步 又 都 适用 。 


步骤 1: 首先 猜测 每 个 群 组 的 中 心 点 。 因 为 暂时 不 能 确定 通过 猜测 
得 到 的 中 心 点 是 人 否 正 确 ， 所 以 称 它们 为 伪 中 心志 。 


步骤 2: 把 每 个 数据 点 分 配给 最 近 的 伪 中 心 护 。 这 样 一 来 ， 就 得 到 
了 两 个 群 组 ， 即 红色 和 群 组 和 蓝 色 群 组 ， 如 图 2-3 所 示 。 


步骤 3: 根据 群 组 成 员 的 分 布 ， 调 整 伪 中 心 点 的 位 置 。 
步骤 4: 重复 步骤 2 和 步骤 3， 直 至 群 组 成 员 不 再 发 生变 化 。 


本 例 的 分 析 只 涉及 2 个 维度 。 其 实 ， 聚 类 也 可 以 在 3 个 其 至 更 多 的 
维度 上 进行 。 对 于 商家 来 说 ， 更 多 的 维度 可 能 是 顾客 的 年 龄 或 到 访 的 次 
数 。 昌 然 很 难 对 多 维度 分 析 进 行 可 视 化 ， 但 是 可 以 借助 程序 计算 数据 点 
和 和 群 组 中 心 点 在 多 维度 情形 下 的 跑 离 。 


2.4 ARİ 


尽管 上 均值 聚 类 方法 很 有 用 ， 但 是 它 本 身 存在 一 定 的 局 限 性 。 


O 每 个 数据 点 只 能 属于 一 个 群 组 。 然而， 数据 点 可 能 恰好 位 于 两 个 
和 群 组 中 间 ， 无 法 通过 均值 聚 类 方法 确定 它 应 该 属于 哪个 群 组 。 
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O 群 组 被 假定 是 正 圆 形 的 。 查 找 距 离 某 个 群 组 中 心 点 最 近 的 数据 
尽 ， 这 一 达 代 过 程 类 似 于 缩小 群 组 的 半径 ， 因 此 最 终 得 到 的 群 
组 在 形状 上 类 似 于 正 圆 形 。 假 设 群 组 的 实际 形状 古 椭 圆 形 ， 那 
么 在 应 用 均值 聚 类 方法 之 后 ， 位 于 椭圆 两 端的 数据 把 可 能 会 
被 划 入 邻近 鸭 群 组 ， 这 会 造成 很 大 的 回 题 。 

O 群 组 被 假定 是 离散 的 。k 均 值 聚 类 既 不 允许 群 组 重 登 ， 也 不 允许 
EVE DCS, 
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概 座 ， 因 此 适合 用 来 识别 韭 贺 形 或 有 重 登 的 辞 组 。 


尽管 大 均值 聚 类 存在 上 述 局 限 性 ， 但 是 它 的 优 点 是 向 单 朴 素 。 一 个 
好 的 数据 分 析 策 略 是 ， 先 用 均值 聚 类 方法 大 致 了 解数 据 结构 ， 再 综合 
运用 其 他 更 高 级 的 方法 进行 深入 分 析 ， 这 样 做 可 以 大 大 弥补 均值 聚 类 
方法 的 局 限 性 。 


2.5 小 结 


O 大 均值 聚 类 用 于 把 相似 的 数据 点 划 入 同一 个 群 组 。 和 群 组 数量 有 必 
须 事 先 指定 。 

O 给 数据 点 分 组 时 ， 首 先 把 各 个 数据 点 分 配 到 距离 最 近 的 群 组 中 ， 
然后 调整 群 组 中 心 后 的 位 置 。 重 复 这 两 个 步骤， 直到 群 组 中 的 
成 员 不 再 发 生变 化 。 

口上 均值 聚 类 最 适合 用 于 正 圆 形 、 非 重合 的 群 组 。 


GEES 


主 成 分 分 析 


3.1 食物 的 写 关 成 分 


RE MARY til Be, WE 3-1 所 示 。 对 于 富 养 师 来 说 ， 区 . 
分 食物 的 最 佳 依 据 是 什么 呢 ?” 是 维生素 舍 量 ， 还 古 蛋 日 质 含量 ?抑或 十 
两 者 兼顾 ? 


3-1 简单 的 食物 金字 塔 


搞 消 楚 最 能 区 分 各 项 数据 的 变量 ， 有 如 下 益处 。 


O 有 助 于 可 视 化 : 选取 合适 的 变量 绘图 有 助 于 获取 更 多 信息 。 

O 有 助 于 发 现 群 组 : 通过 民 好 的 可 视 化 ， 可 以 发 现 隐 奖 的 分 类 或 
Ha. ARAB, BR TIRIB AS ERIK KAZ, E 
BY AEP me Kao PR 


那么 ， 如 何 找到 最 能 区 分 各 项 数据 的 变量 呢 ? 
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3.2 ERR 


主 成 分 分 析 用 于 找 出 最 能 区 分 数据 点 的 变量 。 这 种 变量 被 称 为 主 成 
分 ， 数 据 扣 会 沿 看 主 成 分 的 维度 最 大 限度 地 分 散 开 ， 如 图 3-2 所 示 。 


图 3-2 主 成 分 的 直观 表示 


主 成 分 可 以 用 已 有 的 一 个 或 多 个 变量 表示 。 比 如 ， 可 以 使 用 “ 维 生 
素 C ”这 个 变量 来 区 分 不 同 的 食物 。 因 为 玻 菜 含 维生素 C A R i 
乏 ， 所 以 可 以 通过 “维生素 C” 这 个 变量 区 分 牙 二 和 肉 类 (如 图 3-3 £ 
栏 所 示 ) ， 但 是 无 法 进一步 区 分 不 同 的 肉 类 。 


为 了 进一步 区 分 不 同 的 肉 类 ， 可 以 选择 把 脂肪 含量 作为 第 2 个 变 
量 ， 因 为 肉 类 含有 脂肪 ， 而 大 部 分 世 菜 则 不 然 。 由 于 脂肪 和 维生素 C 的 
计量 单位 不 同 ， 因 此 在 组 合 之 前 ， 必 须 先 对 它们 进行 标准 化 。 


标准 化 类 似 于 使 用 百 分 位 数 表示 每 个 变量 ， 以 此 将 所 有 变量 统一 到 一 
个 标准 尺度 上 。 这 样 一 来 ， 就 可 以 产生 一 个 新 变量 :“ 维 生 素 C- 脂肪 。 
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图 3-3 ”使 用 不 同 的 变量 组 合 对 食物 进行 分 类 

在 图 3-3 中 ， 变 量 “ 维 生 素 C” 把 玻 菜 癌 上 展开 ， 而 负 的 “脂肪 ” 
可 以 把 肉 类 癌 下 展开 。 把 这 两 个 变量 结合 起 来 ， 就 可 以 同时 把 蔬 茉 和 肉 
类 展开 。 

加 入 “膳食 纤维 ”这 个 变量 ， 可 以 进一步 增强 展开 效果 ， 因 为 不 同 
蔬菜 的 腾 食 纤维 含量 不 一 样 。 

相 比 之 下 ， 新 变量 “( 维生素 C + 腾 食 纤维 ) -脂肪 ”展开 数据 的 效 
果 最 好 ， 如 图 3-3 右 栏 所 示 。 

虽然 本 例 通 过 试 错 法 得 到 主 成 分 ， 但 其 实 主 成 分 分 析 可 以 更 系统 
化 ， 来 看 下 一 个 例子 。 
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3.3 示例 : 分 析 食 物种 类 


借助 美国 农业 部 公开 的 数据 ， 可 以 分 析 一 个 食物 随机 样本 的 营养 
成 分 ， 其 中 涉及 4 个 变量 :“ 脂 肪 ”“ 有 蛋白 质 ”“ 腾 食 纤 维 ” 和 “维生素 
C”. ME 3-4 可 以 看 到 ， 革 些 营 养 成 分 似乎 总 是 同时 出 现 。 


脂肪 EAM 膳食 纤维 WERC 
图 3-4 ”比较 不 同 食 物 的 膏 养 成 分 含量 


确切 地 说 ， 脂 肪 含量 和 和 蛋白质 舍 量 的 变化 趋势 古 一 臻 的， 膳食 纤维 
含量 和 维生素 C 含量 的 变化 趋势 也 是 一 致 的 ， 但 前 后 两 组 朝 着 相反 的 方 
站 变化。 为 了 证 实 这 个 猜想 ， 可 以 检查 营养 成 分 变量 之 间 征 人 否 存 在 联系 
(请 参考 6.5 节 )。 的 确 ， 脂 肪 含量 和 蛋白质 含 量 之 间 存 在 明显 的 正 相 关 
关系 (相关 系数 为 0.36) ， 腾 食 纤 维 含量 和 维生素 C 含量 之 间 也 存在 同 
样 的 关系 (相关 系数 为 0.57)。 
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这 样 看 来 ， 并 不 需要 分 别 分 析 4 个 营养 成 分 变量 ， 只 需 把 高 度 相关 
的 变量 组 合 起 来 ， 分 析 2 个 维度 即 可 。 正 因 如 此 ， 主 成 分 分 析 被 认为 古 
一 种 降 维 技巧 。 


针对 食物 数据 集 应 用 主 成 分 分 析 ， 可 以 得 到 如 图 3-5 所 示 的 主 成 分 


图 3-5 主 成 分 是 营养 成 分 变量 的 最 优 加 权 组 合 。 同 一 个 主 成 分 下 的 粉色 单元 
格 代表 加 权 方 向 一 致 的 变量 


每 个 主 成 分 都 是 营养 成 分 变量 的 加 权 组 合 ， 其 中 权重 可 正 可 负 。 例 
如 ， 为 了 获得 主 成 分 1 的 值 ， 可 以 做 如 下 计算 


0.55( 膳食 纤维 ) + 0.44( 维生素 C) - 0.45( 脂肪 ) - 0.55( 蛋白 质 ) 


att 


采用 主 成 分 分 析 之 后 ， 可 以 不 再 通过 试 错 法 组 合 变 量 ， 而 是 通过 
确 计 算 各 个 变量 的 权重 来 获得 最 优 变 量 组 合 。 


请 注意 ， 主 成 分 1 体现 了 我 们 之 前 的 猜想 ， 即 脂肪 和 和 企 白 质 是 一 
对 ， 腾 食 纤 维和 维生素 C 是 一 对 ， 并 且 这 两 对 是 负 相关 关系 。 


主 成 分 1 可 以 用 于 区 分 肉 类 和 蔬 全 ， 主 成 分 2 则 可 以 用 于 在 肉 类 
(使 用 变量 “脂肪 ”) 和 蔬菜 (使 用 变量 “维生素 C”) 中 进一步 分 出 子 
类 来 。 使 用 主 成 分 1 和 主 成 分 2 绘图 ， 可 以 得 到 目前 为 止 最 佳 的 数据 展 
开 效 果 ， 如 图 3-6 所 示 。 
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图 3-6 使 用 两 个 主 成 分 绘图 


对 于 图 中 以 览 色 表示 的 肉 类 来 说 ， 主 成 分 1 的 值 较 小 ， 所 以 它们 集 
中 分 布 在 左 侧 ， 而 以 栖 色 表示 的 蔬菜 则 集中 分 布 在 右 侧 。 还 可 以 看 到 ， 
erin RRE) 的 脂肪 含量 较 低 ， 即 主 成 分 2 的 值 较 小 ， 因 而 主要 分 
布 在 图 的 左下 角 。 同 理 ， 几 种 非 叶 类 蔬菜 REE) 的 维生素 C 含量 较 
低 ， 所 以 大 都 分 布 在 图 的 右 下 角 。 


确定 主 成 分 数量 


本 例 有 4 个 主 成 分 ， 这 与 数据 集 的 原始 变量 个 数 一 致 。 由 于 主 成 分 


来 源 于 原始 变量 ， 因 此 用 来 区 分 数据 氮 的 可 用 信息 会 受到 原始 要 量 个 数 
的 制约 。 
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然而 ， 为 了 让 结 末 更 人 简单、 更 通用 ， 应 该 只 选择 前 儿 个 主 成 分 来 进 
行 可 视 化 和 后 续 分 析 。 主 成 分 按照 其 对 数据 点 的 区 分 效 朱 进行 排列 ， 第 
1 个 主 成 分 的 区 分 效 末 最 好 。 可 以 利用 第 2 草 讲 过 的 陡坡 图 来 确定 合适 
的 主 成 分 数量 。 


从 图 3-7 可 以 看 出 ， 随 独 个 数 增 多 ， 主 成 分 区 分 数据 点 的 效 采 会 变 
过 。 根 据 经 验 ， 陡 坡 图 曲线 鸭 描 弯 处 往往 体现 了 最 佳 主 成 分 数量 。 


50 
40 
30 


20 


Bia WUE A a EE 


主 成 分 编号 
图 3-7 陡坡 图 曲线 在 主 成 分 2 处 拐弯 ， 这 表示 最 佳 主 成 分 数量 为 2 


在 图 中 ， 曲 线 在 主 成 分 2 处 拐弯 。 这 意味 着 ， 尽 管用 更 多 的 主 成 分 
可 以 更 好 地 区 分 数据 点 ， 但 是 复杂 度 会 升 高 ， 因 此 并 不 值得 这 样 做 。 从 
陡坡 图 中 可 以 看 到 ， 前 两 个 主 成 分 已 经 可 以 让 数据 的 散 度 达 到 约 70%。 
在 对 当前 的 数据 样本 进行 解释 时 ， 使 用 的 主 成 分 越 少 ， 沁 化 能 力 就 越 强 。 


3.4 ARIE 


在 分 析 包 含 许多 变量 的 数据 集 时 ， 主 成 分 分 析 很 有 用 。 但 是 ， 它 本 
ARTE EER o 
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O 散 度 最 大 化 : 主 成 分 分 析 有 个 重要 假设 ， 即 数据 点 最 分 散 的 维 
度 是 最 有 用 的 。 然 而 ， 这 个 假设 并 不 一 定 正确 。 一 个 第 见 的 反 
例 是 计算 薄饼 的 个 数 ， 如 图 3-8 所 示 。 在 计算 时 ， 需 要 沿 着 乖 直 
File] (AEE) FER RS A KK IF. Se, BHR 
堆 登 高度 比 较 低 ， 主 成 分 分 析 算法 就 会 错误 地 认为 水 平方 同 〈 即 
薄饼 直径 ) 是 完成 这 项 任务 的 最 佳 主 成 分 ， 这 是 因 为 水 平方 向 
上 的 散 度 是 最 大 的 。 


薄饼 直径 
3-8 ”与 数 薄饼 进行 类 比 


O 解释 成 分 : 主 成 分 分 析 算法 面临 的 一 个 重大 难题 是 ， 必 须 对 其 
产生 的 成 分 进行 解释 。 但 有 时 ， 可 能 很 难 解释 变量 按 菜 种 方式 
进行 组 合 的 原因 。 尽 管 如 此 ， 和 擎 担 相关 领域 的 知识 仍然 很 有 用 。 
在 前 面 的 例子 中 ， 了 解 有 关 食 物种 类 的 知识 有 助 于 理解 主 成 分 
为 何 由 那些 香 养 成 分 变量 组 成 。 

O 正 交 成 分 : 主 成 分 分 析 算 法 总 征 生 成 正 交 主 成 分 ， 即 成 分 之 间 
存在 正 交 关系 。 然 而 ， 这 个 假设 可 能 不 正确 ， 因 为 信息 维度 之 
间 可 能 不 存在 正 交 关系 。 为 了 解决 这 个 问题 ， 可 以 使 用 另 一 项 
技术 ， 即 独立 成 分 分 析 。 独 立成 分 分 析 不 需要 其 成 分 之 间 存 在 
正 交 关系 ,但 是 禁止 它们 所 包含 的 信息 发 生 重 琶 (如 图 3-9 所 示 )。 
这 使 得 每 个 独立 成 分 所 揭示 的 与 数据 集 有 关 有 的 信息 都 是 唯一 的 。 
BR 了 不 需要 假设 正 交 关系 ， 独 立成 分 分 析 在 确定 成 分 时 还 无 须 
考虑 数据 的 散 度 ， 因 而 不 易 出 现 薄 人 饼 例 子 中 的 错误 。 
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(a) 主 成 分 分 析 (b) 独立 成 分 分 析 
图 3-9 在 识别 重要 成 分 时 ， 主 成 分 分 析 与 独立 成 分 分 析 不 同 


虽然 独立 成 分 分 析 看 起 来 很 棒 ， 但 就 降 维 来 说 ， 主 成 分 分 析 仍 然 是 
最 受 欢 迎 的 一 个 算法 ， 了 解 其 原理 的 确 很 有 用 。 当 没有 把 握 时 ， 你 总 是 
可 以 使 用 独立 成 分 分 析 来 验证 主 成 分 分 析 产 生 的 结 末 ， 并 做 必要 的 补充 。 
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D 主 成 分 分 析 是 一 种 降 维 技巧 ， 它 使 得 我 们 可 以 使 用 较 少 的 变量 
来 描述 数据 ， 这 些 变 量 即 为 主 成 分 。 

O 每 个 主 成 分 都 古 原 始 变 量 的 未 种 加 权 组 合 。 节 好 的 主 成 分 可 以 
用 来 改进 数据 分 析 和 可 视 化 。 

O 当 信 息 最 丰富 的 儿 个 维度 拥有 最 大 的 数据 若 度 ， 并 且 彼 此 正 交 
IY, ERAT HEA He ERICA 
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天 联 规 则 


4.1 友 现 购买 模式 


去 杂货 店 购物 时 ， 你 也 许 会 随 号 市 春 一 份 购物 清单 ， 上 面 有 你 根据 
目 己 的 需求 和 喜好 列 出 的 待 购物 品 。 家 庭 主妇 可 能 会 为 晚餐 购买 健康 食 
材 ， 单 身 汉 则 可 能 会 买 啤酒 和 落 片 。 了 解 这 些 购买 模式 有 助 于 找到 多 种 
促进 销售 的 方法 。 例 如 ， 如 果 商 品 X 和 YY 被 顾客 同时 购买 的 频率 很 高 ， 
那么 就 可 以 做 如 下 操作 : 


O 把 购买 商品 Y 的 顾客 视 为 商品 X 的 广告 宣传 对 象 ; 

O 把 商品 和 Y 摆 放 在 同一 个 货架 上 ， 以 刺激 购买 其 中 一 牧 商 品 
的 顾客 同时 购买 另 一 牧 商 品 ， 

O 把 商品 和 Y 合并 成 一 秩 新 商品 ， 比 如 具有 YY 口味 的 X, 


关联 规则 可 用 于 揭示 商品 之 间 的 关联 信息 ， 从 而 增加 销售 利 调 。 不 
仅 如 此 ， 关 联 规则 还 可 以 用 于 其 他 领域 。 比 如 ， 在 医疗 诊断 中 ， 了 解 共 
病症 状 有 助 于 改善 治疗 效 朱 。 


4.2 ”支持 度 、 置 信和 度 和 提升 度 


识别 关联 规则 的 第 用 指标 有 3 个 : 支持 度 、 和 置信 度 和 提升 度 。 


支持 度 指 茶 个 项 集 出 现 的 频率 ， 也 就 是 包含 该 项 集 的 交易 数 与 总 
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交易 数 的 比例 (如 图 4-1 所 示 )。 在 表 4-1 F, {ER )} 在 8 次 交易 中 出 
现 了 4 次 ， 所 以 其 支持 度 为 50%。 一 个 项 集 也 可 以 包含 多 项 ， 比 如 {se 
果 ， 啤 酒 ， 米 饭 } 的 支持 度 为 28， 即 25%。 可 以 人 为 设 定 一 个 支持 度 
阀 值 ， 当 某 个 项 集 的 支持 度 高 于 这 个 国 值 时 ， 我 们 就 把 它 称 为 频繁 项 集 。 


支持 度 (@ = 
图 4-1 支持 度 指标 


表 4-1 交易 示例 


置信 度 表 示 当 X 项 出 现时 Y 项 同时 出 现 的 频率 ， 记 作 {X 一 Y} 
换言之 ， 置 信和 度 指 同时 包含 X 项 和 Y 项 的 交易 数 与 包含 X 项 的 交易 数 
之 比 〈 如 图 4-2 所 示 )。 在 表 4-1 中 ，{ 平 末 一 啤酒 } 的 置信 和 度 为 3/4， 
Bll 75%. 


XH 19 Ip 
支持 度 (G 
图 4-2 置信 度 指 标 


这 个 指标 有 一 个 缺 上 后 ， 那 就 症 它 可 能 会 错 估 茶 个 关联 规则 的 重要 
性 。 图 4-2 中 的 例子 只 卷 虑 了 绊 东 的 购买 频率 ， 而 并 未 考虑 啤 军 的 购买 


置信 度 (@- Ip = 
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频率 。 如 果 啤 酒 也 很 受 欢迎 (正如 表 4-1 MR), MABE RIIE 
显然 很 有 可 能 也 包含 啤酒 ， 这 会 拾 高 置信 和 度 指标 。 然 而 ,借助 第 3 个 指 
标 ， 我 们 可 以 同时 把 平 果 和 啤酒 出 现 的 基础 频率 旁 虑 在 内 。 


提升 度 指 X 项 和 Y 项 一 同 出 现 的 频率 ， 但 同时 要 考虑 这 两 项 各 自 
出 现 的 频率 (如 图 4-3 所 示 )。 


KE, {PRSE } 的 提升 度 等 于 { 平 末 一 啤 亩 } 的 置信 和 度 除 以 
{ 啤酒 } 的 支持 度 。 


支持 度 (@®. Ip 
支持 度 («xe (tp 
4-3 ”提升 度 指标 


根据 表 4-1, {FA UY } 的 提升 度 等 于 1， 这 表示 平 末 和 啤酒 无 
Rko {X 一 Y} 的 提升 度 大 于 1， 这 表示 如 霖 顾客 购 严 了 商品 XX， 那 么 
可 能 也 会 购买 商品 Y; 而 提升 度 小 于 1 则 表示 如 霖 顾客 购 关 了 商品 X， 
那么 不 太 可 能 再 购 关 商品 Y。 


提升 度 (@ Ei. E 


4.3 示例 : 分 析 洒 贷 店 的 销售 数据 


为 了 演示 上 述 指标 的 用 法 ， 下 面 将 对 某 个 杂货 店 一 个 月 (30 天 ) 
的 销售 数据 进行 分 析 。 图 4-4 展示 了 多 对 杂货 之 同 的 关联 关系 ， 它 们 的 
置信 度 和 提升 度 分 别 大 于 0.9% 和 2.3。 圆 越 大 ， 支 持 度 越 高 ， 颜 色 越 
红 ， 则 提升 度 越 高 。 


从 图 4-4 中 可 以 观察 到 如 下 几 种 购买 模式 : 


O 购买 次 数 最 多 的 是 仁 果 和 热带 水 果 ， 
SECH WEEK Ke EH 
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蛋黄 酱 
e 酒 (开胃 小 吃 ) 
mn ` IT za O 
e Fh @ 洋葱 tie ae E 
O 
O 
© Sun Q O 男士 护肤 品 
aT Fr Biet Bez ? 
GES © 特制 奶 栈 © 
è ID enm 
E 
o AK o o 35 
© © O O 
AFI ree eg 
谷物 ”全 脂 奶 
O 
CR O 茶叶 
包装 蔬菜 
图 4-4 ”杂货 关联 网 络 图 
前 面 提 到 ， 置 信和 度 指标 的 一 个 缺点 是 ， 它 可 能 会 错 估 某 个 关联 规则 
的 重要 性 。 为 了 证 明 这 一 点 ， 下 面 来 看 看 3 个 包含 啤酒 的 关联 规则 ， 如 


R 4-2 所 示 。 


表 4-2 与 啤酒 相关 的 3 个 关联 规则 


啤酒 一 汽水 


啤酒 一 RS 
啤酒 一 男士 护肤 品 


EK 4-2 中 ，! 啤酒 一 汽水 } 规则 的 置信 度 最 高 ， 为 17.8%。 然 而 ， 
在 所 有 交易 中 ， 二 者 出 现 的 频率 都 很 高 (如 表 4-3 所 示 )， 所 以 它们 之 
间 的 关联 可 能 只 是 巧合 。 这 一 点 可 以 通过 其 提升 度 为 1 得 到 印证 ， 即 购 
屎 啤酒 和 购买 汽水 这 两 个 行为 之 则 并 不 存在 关联 。 
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表 4-3 各 商品 在 与 啤酒 相关 的 关联 规则 中 的 支持 度 


7.77% 


17.44% 


3.32% 
男士 护肤 品 0.46% 


"mm, {YR Aba } 规则 的 置信 和 度 低 ， 这 是 因为 男士 
护肤 品 的 总 购买 量 不 大 。 尽 管 如 此 ， 如 采 一 位 顾客 严 了 男士 护肤 品 ， 那 
么 很 有 可 能 也 会 买 啤酒 ， 这 一 点 可 以 从 较 高 的 提升 度 (2.6) 推断 出 来 。 
{ 啤酒 一 浆 末 } 的 情况 则 恰好 相反 。 从 提升 度 小 于 1 这 一 点 ， 我 们 可 以 
得 出 结论 : AAPA SYA, AA A HER AIR. 


HE PRR Sy RAAR ni ZEA GS, PR EE EIS 
的 是 所 有 的 热 销 商品 组 合 。 为 此 ， 需 要 先 为 每 种 可 能 的 商品 组 合计 算 支 
持 度 ， 然 后 找到 支持 度 高 于 指定 网 值 的 商品 组 合 。 


即使 只 有 10 种 商品 ， 待 检查 的 总 组 合 数 也 将 高 达 1023 ( 即 2 1)。 
如 果 有 几 百 种 商品 ， 那 么 这 个 数字 将 呈 指 数 增长 。 显 然 ， 我 们 需要 一 种 
更 高 效 的 方法 。 


44 FRN 


要 楚 减 少 需要 考虑 的 项 集 组 合 的 个 数 ， 一 种 方法 是 利用 先 验 原则 。 
简单 地 说 ， 先 验 原 则 是 指 ， 如 和 革 某 个 项 集 出 现 得 不 频 楷 ， 那 么 包含 它 的 
任何 更 大 的 项 集 必定 也 出 现 得 不 频 莹 。 这 就 是 说 ， 如 末 { 啤酒 } 征 非 频 
蒙 项 集 ， 那 么 {啤酒 ， 比 院 } 也 必定 是 非 频 楷 项 集 。 因 此 ， 在 整理 频 棕 
项 集 列 表 时 ， 既 不 需要 考虑 A, EBE }， 也 不 需要 芳 虑 其 他 任何 包 
合 啤 酒 的 项 集 。 
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441 寻找 具有 高 支持 度 的 项 集 


遵循 如 下 步 又 ， 可 以 利用 先 验 原 则 得 到 频 蒙 项 集 列表 。 


步骤 1: 列 出 只 包含 一 个 元 素 的 项 集 ， 比 如 {eR } AN { AR}. 


步骤 2: 计算 每 个 项 集 的 支持 度 ， 保 留 那些 满足 最 小 支持 度 浆 值 条 
件 的 项 集 ， 询 汰 不 满足 的 项 集 。 


步骤 3: 问候 选项 集中 增加 一 个 元 素 ， 并 利用 在 步骤 2 中 保留 下 来 
的 项 集 产 生 所 有 可 能 的 组 合 。 


步骤 4: 重复 步骤 2 和 步骤 3， 为 越 来 越 大 的 项 集 确定 支持 度 ， 直 
到 疫 有 待 检查 的 新 项 集 。 

4-5 描绘 了 利用 先 验 原则 对 候选 项 集 进 行 大 幅 精 简 的 过 程 。 如 来 
CER } 的 支持 度 很 低 ， 那 么 它 及 其 他 所 有 包含 它 的 候选 项 集 部 会 被 移 
除 。 这 样 一 来 ， 行 检查 项 集 鸭 数 量 束 减 少 了 一 大 半 。 


a= = = 


vo gp è a 

os ob PN Ca va 

Ness ove ou, Ad? 
ba F 


图 4-5 红色 虚线 框 内 的 项 集会 被 移 除 
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442 ”寻找 具有 高 置信 和 度 或 高 提升 度 的 关联 规则 


除了 识别 具有 高 文 持 度 的 项 集 之 外 ， 先 验 原 则 还 能 识别 具有 高 置信 
度 或 高 提升 度 的 关联 规则 。 一 旦 识别 出 具有 高 支持 度 的 项 集 ， 寻 找 关 联 
规则 就 不 会 那么 费 劲 了 ， 这 是 因为 置信 度 和 提升 度 都 症 基于 支持 度 计算 
出 来 的 。 


AE PY, (Bee BUN ES re TK BELA a Ba REM SCI, BOAR 
(H, Ghost 规则 的 置信 和 度 很 低 ， 那 么 所 有 包含 相同 元 素 并 且 
箭头 右 侧 有 第 采 的 规则 都 有 很 低 的 置信 和 度 ， 包 括 ASR, H } 
ARRS ER, A }。 如 前 所 述 ， 根 据 先 验 原 则 ， 这 些 置 信 度 较 低 
的 规则 会 被 移 除 。 这 样 一 来 ， 竺 检查 的 候选 规则 就 更 少 了 。 


4.5 局 限 性 


计算 成 本 高 : 尽管 利用 先 验 原则 可 以 减少 候选 项 集 的 个 数 ， 但 是 当 
库存 量 很 大 或 者 文 持 度 国 值 很 低 时 ， 候 选项 集 仍 然 会 很 多 。 一 个 解决 办 
法 是 ， 使 用 高 级 数据 结构 对 候选 项 集 进行 更 高 效 的 分 类 ， 从 而 减少 比较 
的 次 数 。 


(RAH: 当 元 素 的 数量 很 大 时 ， 偶 和 尔 会 出 现 假 天 联 。 为 了 确 你 所 发 
现 的 关联 规则 具有 普遍 性 ， 应 该 对 它们 进行 验证 (FEI 1.4.3 市 )。 


尽管 有 上 述 局 限 性 ， 但 在 从 中 等 规模 的 数据 集中 识别 模式 时 ， 关 联 
规则 仍然 是 一 个 很 直观 的 方法 。 


4.6 小 结 


O 关联 规则 用 于 揭示 茶 一 个 元 北 出 现 的 频率 ， 以 及 它 与 其 他 元 素 
的 关系 。 
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O 识别 关联 规则 的 常用 指标 有 3 个 : 
(1) {X} 的 支持 度 表 示 X 项 出 现 的 频率 ; 
(2) {X > Y} 的 置信 度 表 示 当 X 项 出 现时 Y 项 同时 出 现 的 频率 ， 
G) {X > Y} 的 提升 度 表 示 X 项 和 Y 项 一 同 出 现 的 频率 ， 并 且 
芳 虑 每 项 各 目 出 现 的 频率 。 


O 利用 先 验 原则 ， 可 以 淘汰 一 大 部 分 非 频 莹 项 集 ， 从 而 大 大 地 加 
快 搜索 频 葵 项 集 的 速度 。 


第 5 草 


任 会 网 络 分 析 


5.1 展现 人 际 关 系 


大 部 分 人 邦 有 多 个 社交 圈 ， 其 中 有 亲戚 、 同 事 和 同学 每。 为 了 探究 
人 际 关 系 ， 比 如 找 出 重要 人 物 及 其 对 群体 的 影响 ， 可 以 运用 社会 网 络 分 
析 。 这 项 技术 前 景 广阔 ， 可 以 应 用 于 多 个 领域 ， 比 如 病毒 式 营 销 、 传 染 
病 建 模 ， 以 及 团体 竞赛 策略 等 。 尽 管 如 此 ， 最 著名 的 用 例 莫 过 于 社会 网 
络 分 析 ， 这 正 是 其 名 称 的 由 来 。 图 5-1 描绘 了 如 何在 社会 网 络 分 析 中 表 
示人 际 关 系 。 


玛丽 


AR Al HL 


汤姆 


Së 
图 5-1 简单 的 朋友 圈 示 例 ， 连 线 越 粗 ， 关 系 越 亲密 
5-1 展示 了 一 个 关系 网 络 ， 亦 称 关 系 图 。 该 关系 图 由 4 人 组 成 ， 
每 个 人 代表 一 个 节点 。 各 个 市 点 之 间 的 连 线 表示 关系 ， 这 些 连 线 也 被 称 
Ai, BAe HARE, FF RAR RAW SESS 
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从 图 5-1 可 知 : 


口 戴 维 的 人 脉 最 好 ， 他 与 男 外 3 人 都 认识 ， 
汤姆 只 认识 戴 维 ， 并 且 他 们 是 好 朋友 ，; 
D ARAMA ES ARE, (HS ARIK 


除了 人 人 际 关 系 之 外 ， 社 会 网 络 分 析 还 可 以 用 来 为 其 他 实体 构建 网 
络 ， 前 提 是 这 些 实体 之 则 彼此 有 联系 。 本 全 将 利用 这 项 技术 分 析 国 际 贸 
易 网 络 。 


5.2 示例 : 国际 贸易 


本 例 只 考虑 贸易 额 超过 1 亿美 元 的 交易 。 根 据 2006~2015 ZER 


品 的 贸易 额 ， 我 们 构建 了 一 个 交易 网 络 ， 其 中 包含 90 Ph AA 293 
条 边 。 


在 对 这 个 网 络 进行 可 视 化 时 ， 需 要 用 到 力 导 向 算法 : 不 存在 联系 的 
克 原 彼此 排斥 ， 存 在 联系 的 市 点 则 彼此 吸引 ， 吸 引力 的 踢 蜀 取决 于 联系 
的 紧密 程度 。 比 如 ， 贸 易 额 大 的 国家 之 间 的 连 线 较 粗 ， 并 且 相 距 很 近 。 


借助 Louvain 方法 (下 一 节 讲 解 ) 分 析 该 网 络 ， 可 以 得 到 3 个 
群 组 。 


O HERH: 这 古 最 大 的 群 组, 群 组 成 员 包括 美国 、 英 国 和 以 色 列 。 

O 黄色 群 组 : 群 组 成 员 多 为 欧洲 国家 ， 该 群 组 和 监 色 群 组 有 紧密 

O 红色 群 组 : 这 个 群 组 与 其 他 两 个 群 组 分 离 ， 其 成 员 主 要 包括 亚 
洲 和 非洲 的 国家 。 


除了 把 各 个 国家 分 和 不同 的 群 组 之 外 ， 还 可 以 使 用 PageRank 算法 
( 稍 后 讲解 ) 对 各 个 国家 进行 影响 力 排名 。 5-3 列 出 了 在 该 网 络 中 了 最 
具有 影 啊 力 的 前 10 个 国家 ， 结 果 与 图 5-2 中 的 市 点 大 小 相符 。 


5.2 ml: 国际 贸易 | Ai 
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图 5-3 根据 PageRank 算法 ， 得 到 在 本 例 中 最 具 影 响 力 的 10 个 国家。 每 个 国 
家 的 PageRank 值 (黄色 ) 和 其 总 贸易 额 (灰色 ) 并 排 显 示 


接 下 来 详细 了 解 Louvain 方法 和 PageRank 算法 。 


5.3 Louvain 方法 


如 图 5-2 所 示 ， 通 过 对 下 点 分 组 ， 可 以 找 出 网 络 中 存在 的 群 组 。 研 
究 这 些 群 组 有 助 于 理解 网 络 各 个 部 分 的 区 别 及 联系 。 


Louvain 方法 用 来 在 网 络 中 找 出 群 组 ， 它 会 尝试 使 用 不 同 的 聚 类 配 
置 来 做 如 下 两 件 事 : 


(1) 把 同一 个 群 组 中 各 个 市 点 间 的 边 数 和 强度 最 大 化 ，; 
(2) 把 属于 不 同 群 组 的 市 扣 间 的 边 数 和 强度 最 小 化 。 
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模块 度 用 于 表示 上 述 两 件 事 的 完成 程度 。 模 块 度 越 高 ， 群 组 越 理 想 。 


WY OS ORS HABA SR EAC, Louvain ASAREE, BAP. 


步骤 1: TEAS aE — Pa, BN — FP he EE ër A 3 Sr 
相同 。 


步骤 2: 把 一 个 节点 重新 分 配给 对 提高 模块 度 有 最 大 帮助 的 群 组 
如 果 无 法 进一步 提高 模块 度 ， 节 点 保持 不 动 ， 针 对 每 个 节点 重复 这 个 过 
程 ， 直 到 不 能 再 分 配 。 


步骤 3: 把 步骤 2 PALA BET AEA EAA, PASE rr 
粒度 网 络 ， 并 且 把 以 前 的 群 同 边 合 并 成 连接 新 下 点 且 市 权重 的 边 。 


步骤 4: 重复 步骤 2 和 步骤 3， 直到 无 法 再 重新 分 配 和 合并 。 

Louvain 方法 以 这 样 的 方式 帮助 我 们 找 出 更 多 重要 的 群 组 : 先 发 现 
小 群 组 ， 然 后 在 适当 的 情况 下 合并 它们 。Louvain 方法 简单、 高 效 ， 这 
使 它 成 为 流行 的 网 络 聚 类 方法 。 但 是 ， 它 本 身 有 一 定 的 局 限 性 。 


O 重要 但 较 小 的 群 组 可 能 会 被 合并 。 反 复合 并 群 组 有 可 能 使 那些 
重要 但 较 小 的 群 组 被 忽略 。 为 了 防止 出 现 这 种 情况 ， 需 要 检查 
在 中 间 达 代 阶段 被 发 现 的 群 组 , 如 琳 有 必要 , 就 把 它们 保留 下 来 。 

O 有 多 种 可 能 的 聚 类 配置 。 如 琳 网 络 中 包 舍 重合 或 髓 套 的 群 组 ， 
很 难 利用 Louvain 方法 找 出 最 理想 的 聚 类 解决 方案 。 尽 管 如 此 ， 
当 存 在 几 种 拥有 较 高 模块 度 的 解决 方案 时 ， 可 以 依据 其 他 信息 
源 对 和 群 组 予以 验证 。 


5.4 PageRank 算法 
虽然 群 组 可 以 反映 出 相互 作用 高 度 集中 的 区 域 ， 但 是 这 些 相 互 作用 


可 能 受 占 主导 地 位 的 市 点 支配 ， 群 组 则 围绕 着 这 些 主导 市 点 形成 。 为 了 
找 出 占 主导 地 位 的 市 点 ， 需 要 对 方 皮 进 行 排序 。 
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PageRank 算法 以 谷歌 公司 联合 创始 人 Larry Page WEMA, ÆR 
歌 公司 最 初 用 来 为 网 页 排名 的 算法 之 一 。 虽 然 PageRank 算法 最 著名 的 
用 例 是 为 网 页 排名 ， 但 是 实际 上 它 可 以 用 来 为 任意 类 型 的 节点 排名 。 


在 PageRank 算法 中 ， 决 定 一 个 网 页 排名 的 因素 有 如 下 3 个 。 


O 链接 数量 : 被 其 他 网 页 链接 的 次 数 越 多 ， 该 网 页 的 访问 者 可 能 
RL o 

O 链接 强度 : EERE RAEL, A e EK o 

D 链接 来 源 : MA EE A Een AR A YD ee, ABA Gd NR 
排名 也 会 升 高 。 


图 5-4 展示 了 PageRank 算法 的 原理 。 其 中 ， 节 点 代表 网 页 ， 边 代 
表 超 链接 。 


图 5-4 在 这 个 网 络 中 ， 市 尽 代 表 网 页 ， 边 代表 超 链接 


超 链接 的 权重 越 大 ， 则 其 前 头 所 指 方向 的 流量 就 越 大 。 从 图 5-4 可 
以 看 到 ， 对 于 网 页 M 的 访问 者 而 言 ， 访 问 网 页 DD 的 可 能 性 是 访问 网 页 
本 的 两 倍 ， 而 访问 网 页 工 的 可 能 性 为 去。 


要 了 解 哪个 网 页 吸引 的 访问 者 最 多 ， 可 以 根据 图 5-4 模拟 100 个 访 
问 者 的 上 网 行为 ， 并 观察 他 们 最 后 停留 在 哪个 网 页 上 。 
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wc, 把 100 个 访问 者 平均 分 配给 4 个 网 页 ， 如 图 5-5 所 示 。 


图 5-5 Marie: 100 个 访问 者 被 平均 分 配给 4 个 网 页 


然后 ， 根 据 链接 的 方向 和 强度 为 每 个 网 页 重新 分 配 访问 者 。 比 如 ， 
在 网 页 M 的 访问 者 中 ， 有 2/3 会 访问 网 页 D， 剩 余 的 13 会 访问 网 页 J. 
在 图 5-6 中 ， 各 条 边 显 示 了 进出 各 个 网 页 的 访问 者 数量 。 


图 5-6 ”根据 链接 的 方 同 和 强度 重新 分 配 访问 者 


经 过 重新 分 配 之 后 ， 网 页 M 大 约 有 23 个 访问 者 ， 其 中 10 个 来 自 
于 网 页 D，13 个 来 自 于 网 页 J]。 图 5-7 显示 了 每 个 网 页 最 终 的 访问 者 人 
数 ( 舍 入 到 最 接近 的 整数 )。 
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5-7 重新 分 配 后 的 访问 者 分 布 情况 


为 了 得 到 每 个 网 页 的 PageRank 排名 ,重复 上 述 分 配 过 程 ， 直 到 每 


个 网 页 的 访问 者 人 数 不 再 发 生 改 变 。 每 个 网 页 的 取 终 访问 者 人 数 体现 了 
该 网 页 的 PageRank 排名 : 访问 者 越 多 ， 排 名 就 越 高 。 


尽管 PageRank Fi a TEH, EEA BRE, Iiii E tam F IH 
WA AAR o cl SEA PEMA A, EA R E A BR 
少 ， 那 么 它 的 PageRank 排名 就 较 低 ， 这 有 可 能 导致 该 网 页 不 在 推 存 之 
列 。 为 了 避免 出 现 这 种 情况 ， 可 以 定期 更 新 PageRank 值 ， 让 新 网 页 随 
着 目 身 知名 度 的 提高 获得 提高 排名 的 机 会 。 


不 过 ， 这 种 侦 回 有 时 反倒 有 益 ， 尤 其 电 对 那些 有 着 长 期 影响 力 的 实 
体 进 行 排序 时 ， 更 是 如 些 。 这 表明 ， 一 个 算法 的 局 限 性 在 某 种 情况 下 可 
PEIEE EIR, KRERET. 


5.5 局 限 性 


虽然 用 于 聚 类 和 排名 的 方法 让 我 们 得 以 更 深入 地 了 解 一 个 网 络 ， 但 
古 在 理解 结 末 时 务必 要 谨慎 。 


以 5.2 六 为 例 ， 我 们 用 国际 贸易 数据 来 评估 国家 之 间 的 关系 。 这 种 
方法 可 能 会 过 于 简单 ， 有 如 下 缺点 。 
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D 外 有 交 关系 被 忽略 : 虽然 两 个 而 点 之 间 的 边 能 体现 进出 口 关系 ， 
从 而 在 一 定 程度 上 反映 两 国之 间 的 友好 关系 ， 但 对 于 同 为 进口 
方 或 同 为 出 口 方 的 国家 ， 这 种 方法 不 适用 。 

O 其 他 贸易 因素 被 忽略 : 进出 口 贸 易 政策 的 制定 涉及 其 他 因素 。 
除了 加 强 双 边关 系 外 ， 各 国 可 能 还 想 通 过 贸易 促进 经 济 发 展 。 
因此 ， 仅 研究 贸易 数据 可 能 得 不 到 全 面 的 结论 。 


最 终 能 舍得 到 正确 结论 ， 取 决 于 数据 对 洽 察 对 象 的 反映 程度 。 因 
此 ， 必 须 精 心 选 择 用 以 生成 网 络 的 数据 类 型 。 为 了 核实 所 选 数据 产 切 实 
可 行 并 且 分 析 技 术 足 够 健壮 ， 应 该 结合 其 他 信息 源 验 证 结 东 。 


5.6 小 结 


O 社会 网 络 分 析 可 用 于 绘制 和 分 析 多 个 实体 之 间 的 关系 。 

O Louvain 方法 用 于 在 一 个 网 络 中 找 出 群 组 ， 具 体 做 法 是 将 群 组 内 
部 的 相互 作用 最 大 化 ， 同 时 把 群 组 之 间 的 相互 作用 最 小 化 。 当 
群 组 大 小 相同 且 相 互 分 离 时 ， 该 方法 的 效 朱 了 节 佳 。 

O PageRank 算法 根据 链接 的 数量 、 强 度 以 及 来 源 对 网 络 中 的 市 点 
进行 排序 。 这 个 算法 有 助 于 找 出 网 络 中 占 主导 地 位 的 市 点 ， 但 
对 链接 数 不 太 多 的 新 节点 并 不 友好 。 


第 6 草 


回归 分 析 


6.1 BESZ 


A Boe (CHU Fs FAA, EAR tu. BRED BE 
只 要 翻 翻 每 天 有 的 报纸 ， 就 会 看 到 大 量 趋势 线 图 表 ， 涉 及 有 的 主题 各 种 各 
样 ， 从 股票 价格 到 天 气 预 报 。 


一 般 的 趋势 往往 只 涉及 单个 预测 变量 ， 这 个 变量 用 来 产生 预测 结 
条 ， 比 如 使 用 时 间 (预测 变量 ) 预测 一 家 公司 的 股票 价格 (预测 结 末 )。 
不 过 ， 通 过 添加 更 多 预测 变量 ， 可 以 改善 预测 结果 ， 比 如 除了 时 间 之 
外 ， 还 使 用 销售 收入 来 一 起 预测 股票 价格 。 


回归 分 析 不 但 可 以 通过 芳 虑 更 多 预测 变量 改善 预测 结 末 ， 而 且 还 可 
以 比较 各 个 预测 变量 的 强 弱 。 


为 了 理解 回归 分 析 的 原理 ， 让 我 们 看 一 个 预测 房价 的 例子 。 


6.2 abl: 预测 房价 


本 示例 使 用 的 十 20 世纪 70 年 代 美 国 波士顿 房价 的 相关 数据 及 预测 
变量 。 经 过 饱 步 分 析 发 现 ， 对 房价 影响 最 大 的 两 个 因素 是 房间 数 以 及 周 
围 低 收入 居民 所 占 的 比例 。 


从 图 6-1 可 以 看 出 ,价格 较 高 的 房子 通 第 房间 数 较 多 。 为 了 预测 房 
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价 ， 我 们 画 了 一 条 趋势 线 (图 中 的 蓝 线 )。 这 条 趋势 线 亦 称 最 佳 拟 合 线 ， 
大 部 分 数据 点 都 分 布 在 这 条 线 附近 。 由 此 预测 ， 一 所 拥有 8 个 房间 的 房 
子 售 价 大 约 是 38 150 美元 。 


千 美元 ) 


房价 中 位 数 (单位 : 


平均 房间 数 
图 6-1 房价 和 房间 数 的 关系 


除了 房间 数 之 外 ， 房 价 还 受 周围 居民 收入 的 影响 。 对 于 一 所 房 
子 ， 其 周围 低 收入 居民 占 的 比例 越 大 ， 房 价 就 越 低 ， 如 图 6-2 所 示 。 
图 6-2a 中 的 趋势 稍 有 弯曲 ， 通 过 针对 预测 变量 值 应 用 对 数 变换 ， 数 据 
扩 和 趋势 线 能 更 好 地 保持 一 怪 ， 如 图 6-2b 所 示 。 


房价 中 位 数 


(a) 变换 前 (b) 变换 后 
图 6-2 房价 和 低 收 入 居民 占 比 的 关系 
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经 过 观察 可 以 发 现 ， 相 比 于 图 6-1， 图 6-2b A 中 分 
布 在 趋势 线 附 近 ， 这 说 明 周 围 居民 的 富裕 程度 对 房价 的 影响 要 比 房间 数 
的 影响 大 。 


为 了 提高 房价 预测 结 末 的 准确 度 ， 可 以 把 房间 数 和 周围 居民 的 富 俗 
程度 结合 起 来 并 将 其 作为 一 个 预测 变量 使 用 。 不 过 ， 由 于 后 者 对 房价 的 
影 啊 要 比 前 者 大 ， 因 此 把 两 者 简单 地 加 起 来 并 不 合理 。 合 理 的 做 法 古 给 
通过 周围 居民 是 俗 程 度 所 做 的 预测 赋予 更 高 的 权重 ， 如 图 6-3 TAR. 


TEL) 
20 30 40 50 


房价 中 位 数 (单位 : 


10 


组 合 预测 变量 


图 6-3 房价 和 带 权 重 的 组 合 预 测 变 量 的 关系 ， 组 合 预 测 变 量 由 房间 数 和 周围 


大 民 的 宦 容 程度 组 合 而 成 


图 6-3 有 反映 鸭 是 房价 和 只 有 最 优 权重 的 组 合 预 测 变 量 的 关系 。 该 组 
合 预 测 变 量 由 房间 数 和 周围 大 民 的 是 容 程 度 这 两 个 预测 变量 组 合 而 成 。 
请 注 夸 ， 相 比 之 前 ， 图 中 的 数据 扣 离 趋势 线 更 拒 ， 因 此 通过 这 条 趋势 线 
所 做 的 预测 可 能 是 最 准确 的 。 为 了 验证 这 一 点 ， 可 以 比 绞 使 用 3 条 趋势 
线 所 得 到 的 平均 预测 误差 ， 如 表 6-1 所 示 。 
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表 6-1 使 用 3 条 趋势 线 所 得 到 的 平均 预测 误差 


预测 误差 
Läit, "TZ 


房间 数 和 周围 居民 的 富裕 程度 


显 而 多 多 ， 通 过 市 权重 的 组 合 受 量 能 够 得 到 更 准确 的 预测 结 末 。 但 
是 ， 我 们 在 使 用 过 程 中 机 回答 如 下 两 个 问题 。 


(1) 如 何 得 到 最 优 权重 组 合 ? 
(2) 如 何 解 释 它们 ? 


6.3 SEH: 


在 回归 分 析 中 ， 预 测 变 量 的 权重 是 主要 参数 ， 通 过 解 方程 就 可 以 直 
接 求 得 最 优 权重 。 不 过 ， 由 于 回归 分 析 人 向 单 并 且 适 合用 于 曾 释 概念 ， 因 
此 我 们 将 用 它 来 解释 妃 外 一 个 优化 参数 的 方法 。 这 个 方法 束 是 梯度 下 降 
法 ， 一 般 在 无 法 直接 得 到 参数 时 使 用 。 


简单 地 说 ， 梯 度 下 降 法 允 初 步 猜 测 合适 的 权重 组 合 ， 再 通过 一 个 友 
代 过 程 ， 把 这 些 权 重 应 用 于 每 个 数据 点 做 预测 ， 然 后 调整 权重 ， 以 减少 
ATMIR - 


这 个 过 程 类 似 于 一 步 步 走 到 山 底下。 每 走 一 步 ， 梯 度 下 降 法 都 要 判 
断 从 哪个 方 癌 下 是 最 陡峭 的 ， 然 后 轴 着 那个 方 癌 重新 校准 权重 。 节 终 ， 
RUN AEA RRA, AAR ee), B 6-4 质 给 了 一 条 经 过 优 
化 的 回归 趋 舅 线 如 何 与 梯度 上 的 最 低 点 相对 应 。 
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趋势 线 梯度 下 降 


d 


(a) 未 优化 


(b) 优化 后 


图 6-4 ”趋势 线 通过 梯度 下 降 法 达到 最 优化 


除了 回归 之 外 ， 梯 度 下 降 法 也 能 用 来 优化 其 他 模型 中 的 参数 ， 比 如 
第 8 半 讲 的 支持 癌 量 机 和 第 11 革 讲 的 神经 网 络 。 然 而 ， 在 这 些 更 为 复 
杂 的 模型 中 ， 梯 度 下 降 法 的 结 来 可 能 会 受到 “下 山 起 点 ”( 即 初始 参数 
值 ) 的 影响 。 比 如 ， 假 设 起 点 下 方 恰 好 有 一 个 小 凹 坑 ， 那 么 梯度 下 降 法 
可 能 会 将 其 误 认 为 是 最 优点 ， 如 图 6-5 所 示 。 


项 测 误差 
> 


图 6-5 Mi (绿色 三 角形 ) 可 能 会 被 误 认 为 是 最 优点 ， 而 真实 的 最 优点 在 更 
下 方 (绿色 水 平 线 ) 
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为 了 降低 陷入 这 种 凹 坑 的 风险 ， 可 以 使 用 另外 一 种 方法 一 一 随机 梯 
度 下 降 法 。 在 这 种 方法 中 ， 每 次 迭代 并 不 征 采 用 所 有 数据 点 ， 而 是 只 从 
其 中 选取 一 个 来 调整 参数 。 这 样 做 就 ?| 入 了 多 变性 ， 有 助 于 算法 逃离 凹 
卦 。 虽 然 从 这 个 随机 过 程 中 得 到 的 最 终 参 数值 可 能 不 古 最 优 的 ， 但 与 阳 
优 值 很 授 近 ， 精 度 还 古 相 当 不 错 的 。 


梯度 下 降 法 的 这 个 缺 后 通 第 只 出 现在 更 为 复杂 的 模型 中 ， 做 回归 分 
析 时 根本 无 须 担 心 这 一 上 后。 


6.4 回归 系数 
在 为 回归 预测 变量 求 得 最 佳 权 重 之 后 ， 需 要 对 它们 进行 解释 。 


回归 预测 变量 权重 的 正式 名 称 是 回归 系数 ， 它 表示 杂 个 预测 变量 
相 比 于 其 他 预测 变量 的 影 响 大 小 。 换 言 之 ， 它 表示 相关 预测 变量 的 增加 
值 ， 而 非 绝 对 预测 强度 。 


举例 来 说 ， 如 采 使 用 房屋 的 建筑 面积 和 房间 数 来 预测 房价 ， 那 么 房 
间 数 的 权重 也 许可 以 忽略 不 计 。 因 为 房间 数 在 衡量 房屋 大 小 方面 的 作用 
与 建筑 面积 有 重合 ， 所 以 它 对 整个 预测 能 力 的 贡献 很 小 。 


预测 变量 的 度量 单位 不 同 也 会 影响 对 回归 系数 的 解释 。 比 如 ， 对 
于 同一 个 预测 变量 ， 以 米 为 度量 单位 时 的 权重 古 以 厘米 为 度量 单位 时 的 
100 售 。 为 了 避免 这 个 问题 ， 应 该 在 做 回归 分 析 之 前 先 对 预测 变量 的 度 
量 单 位 进行 标准 化 。 标 准 化 类 似 于 统一 使 用 百 分 位 数 来 表示 每 个 变量 。 
经 过 标 谁 化 之 后 ， 预 测 变量 的 系数 被 称 为 标准 化 回归 系数 ， 可 以 用 来 做 
更 准确 的 比较 。 


在 预测 房价 的 例子 中 ， 两 个 预测 变量 (房间 数 和 周围 低 收入 居民 所 
占 比 例 ) 都 经 过 了 标准 化 ， 权 重 比 为 2.7 : 6.3。 这 意味 着 在 预测 房价 时 ， 
周围 低 收入 大 民 所 占 比例 比 房 旧 数 起 更 大 的 作用 。 回 归 方 程 如 下 所 示 。 


邮 
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房价 = 2.7( 房 间 数 )- 6.3( 低 收入 居民 所 占 比 例 ) 
请 注意 ， 在 这 个 方程 中 ， 低 收入 大 民 所 占 比 例 的 权重 前 面 有 一 个 人 负 
写 ， 这 表示 权重 为 仙 。 这 是 因为 该 预测 变量 和 房价 是 人 负 相 关 关 系 ， 这 一 
尽 可 以 从 图 6-2 中 向 下 倾斜 的 趋势 线 看 出 来 。 


6.5 相关 系数 


当 只 存在 一 个 预测 变量 时 ， 该 预测 变量 的 标准 化 回归 系数 也 被 称 为 
相关 系数 ， 记 作 r+， 如 图 6-6 所 示 。 相 关系 数 的 取 值 疙 围 为 -1 到 1， 它 
提供 了 两 部 分 信息 。 


6-6 不 同 的 相关 系数 下 数据 的 分 布 情况 
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O 关联 方向 : 相关 系数 为 正 表 示 预 测 变 量 和 结果 变化 的 方 癌 一 致 ; 
为 负 则 表示 两 者 变化 方 名 相反。 房价 和 房间 数 是 正 相 关 关 系 ， 
和 周围 低 收 入 居民 所 占 比例 是 负 相 关 关 系 。 

口 关联 强度 : > 值 越 接近 -1 或 1, 预测 变量 起 的 作用 就 越 大 。 例 如 ， 
6-1 中 趋势 线 表 示 的 相关 系数 是 0.7， 而 图 6-2b 中 的 是 -0.8。 
这 意味 着 在 预测 房价 时 ， 相 比 于 房间 数 ， 周 围 低 收 入 居民 所 占 
比例 起 着 更 大 的 作用 。 若 7 值 为 0， 则 表示 预测 变量 和 结果 之 间 
不 存在 关系 。 因 为 相关 系数 表示 单个 预测 变量 的 绝对 强度 ， 所 
以 相 比 于 回归 系数 ， 相 关系 数 在 对 预测 变量 进行 排序 时 更 可 靠 。 


6.6 局 限 性 


虽然 回归 分 析 能 够 提供 丰富 的 信息 ， 并 且 计 算 速度 快 ， 但 是 它 本 里 
存在 痢 一 定 的 局 限 性 。 


O 对 异常 值 敏感 : 由 于 回归 分 析 平 等 地 对 每 所 有 有 的 数据 把 ， 因 此 
只 要 存在 儿 个 有 腊 前 值 的 数据 点 ， 束 会 给 趋势 线 造 成 很 大 的 影 
啊 。 为 了 避免 出 现 这 种 情况 ， 在 做 进一步 分 析 之 前 ， 可 以 先 使 
HER AIER E HE. 

O 造成 相关 预测 变量 权重 失真 : 如 采 回 归 模 型 包含 高 度 相 关 的 预 
测 变 量 ， 那 么 这 些 变 量 的 权重 会 失真 ， 这 就 是 所 谓 的 多 重 共 线 
性 问题 。 为 了 解决 这 个 问题 ， 可 以 在 分 析 之 前 先 把 相关 预测 变 
量 排除 ， 或 者 使 用 更 高 级 的 技术 ， 比 如 套 索 回归 或 岭 回归 。 

O 弯曲 的 趋势 : 在 本 革 所 举 的 例子 中 ， 趋 势 由 直线 表示 。 但 是 有 
些 趋 势 可 能 是 弯曲 的 。 对 于 这 种 情况 ， 可 能 需要 对 预测 变量 的 
值 进行 转换 ， 或 者 使 用 支持 向 量 机 ( 详 见 第 8 章 ) 等 其 他 算法 。 

O 并 不 说 明 存 在 因果 关系 : 假设 我 们 发 现 养 狗 和 房价 征 正 相关 关 
系 。 我 们 知道 养 宠物 狗 不 会 让 房子 增值 ， 但 是 那些 养 得 起 狗 的 
家 庭 往 往 会 有 较 高 的 收入 ， 并 且 很 有 可 能 住 在 房价 较 高 的 社区 .。 
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Rr AA a rg RI. (ele EV Ir TOMM Ger ID. te 
FA, Be ge 种 技术 。 仁 细 理 解 分 析 结 有 末 ， 有 助 于 确保 结论 的 准确 性 。 


6.7 JA 


口 回归 分 析 用 于 寻找 最 佳 拟 合 线 ， 使 得 尽 可 能 多 有 的 数据 后 位 于 这 
条 线 附 近 (或 这 条 线 上 )。 

O 趋势 线 由 带 权 重 的 组 合 预 测 变量 得 到 。 这 些 权 重 被 称 为 回归 系 
数 ， 表 示 某 个 预测 变量 相对 于 其 他 预测 变量 的 及 啊 强度 。 

O 在 下 面 几 种 情况 下 ， 回 归 分 析 的 效果 最 好 : 
(1) 预测 变量 之 则 的 关系 不 强 ， 
(2) L É; 
(3) 趋势 可 以 用 直线 表示 。 


第 7 章 


K 最 近邻 算法 和 腊 音 检测 


7.1 食品 检测 


LERRA. en A HEES KEE 
酒 的 区 别 ? 


有 些 人 想当然 地 认为 ， 红 衢 衔 酒 是 用 红 区 兢 酿 制 的 ， 而 白 菠 和 敬酒 古 
HARWAIN. (0 te ds IEW, JS PZT sp ReH A ai 4d Be 
vil, "ls nl AHR dB Un, 


ZT. il 2d 19 Be KAY DX DETARE N A. el ST. 2d 
IY, aed TA ed) BC EEG TE AY, ed BC EK Pl eS ES er 
SHEL as. ARIA dT, WE iad iw, AE TT o 


Dm, BRANT AY ART iad 2d 7 A EE R EA AE 
K: AT, ile) ABCA AIC REE, ERAS 
FAW AE, RAEE EARD E EDT CH id SEI, 
颜色 。 


为 了 检验 这 个 假设 ， 可 以 使 用 机 如 学 习 中 最 简单 的 一 种 方法 : k 
近邻 算法 。 
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7.2 物 以 类 聚 ， 人 以 群 分 


kk 最 近邻 算法 根据 周围 数据 点 的 类 型 对 某 个 数据 点 进行 分 类 。 也 就 
是 说 ， 如 果 一 个 数据 点 周围 有 4 个 红 点 和 1 个 黑 点 (如 图 7-1 Bra), 
那么 根据 少数 服从 多 数 的 原则 ， 这 个 数据 点 很 可 能 就 是 红色 的 。 
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到 7-1 根据 周围 5 个 数据 点 的 颜色 以 及 少数 服从 多 数 的 原则 ， 中 心 数据 点 应 
该 被 划 为 红 点 
在 不 最 近邻 算法 中 ， 参 数 上 表示 周围 数据 点 的 个 数 。 在 上 面 的 例子 
中 ,为 5。 选 择 k 值 的 过 程 叫 作 参 数 调 优 ， 它 对 预测 的 准确 度 起 着 至 
天 重要 的 作用 。 


ar | = 
一 一 一 一 


(a) 过 拟 合 (b) 理想 拟 合 


图 7-2 EHPERS AEG. BERRA RMA A a, ZC 


域 中 的 点 则 被 预测 为 红 葡 萄 酒 
如 采 K 值 太 小 ， 数 据点 只 与 最 近 的 “邻居 ”匹配 ， 并 且 随 机 噪声 所 
产生 的 误差 也 会 被 放大 ， 如 图 7-2a rar, WR k ERK, re 
试 与 更 还 的 “邻居 ”匹配 ， 其 中 隐 谷 的 模式 会 被 忽略 ， 如 图 7-2c ra, 
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只 有 当 K 值 恰到好处 时 ， 数 据 氮 才 会 参考 合适 数量 的 “邻居 ， 这 使 得 
误差 相互 抵消 ， 有 利于 揭示 数据 中 隐 臣 的 趋势 ， 如 图 7-2b 所 示 。 


为 实现 理想 拟 合 并 把 误差 降 到 最 低 ， 可 以 使 用 交叉 验证 法 对 参数 
进行 调 优 (请 参考 1.4.3 市)。 对 于 二 分 类 问题 ， 可 以 把 上 设置 成 一 个 奇 
数 ， 以 避免 出 现 平 局 的 情况 。 


除了 用 来 为 数据 点 分 类 ,最 近邻 算法 还 可 以 通过 合计 周围 数据 点 
的 值 来 预测 连续 值 。 相 比 于 平等 看 待 周围 的 所 有 数据 点 并 人 简单 地 取 平 
均值 ， 通 过 使 用 加 权 平 均值 ， 能 够 进一步 改善 预测 结 末 。 离 数据 点 越 近 
的 “邻居 ， 其 值 越 能 反映 该 数据 点 的 真实 值 ， 因 此 赋 给 它 的 权重 应 该 
更 入。 


7.3 示例 : 区 分 红 日 葡萄 酒 


回 到 区 兢 泗 的 例子 。 通 过 观察 与 之 有 相似 化 学 成 分 的 区 铭 酒 ， 可 以 
青 出 某 于 区 萄 酒 的 颜色。 


如 图 7-3 所 示 ， 我 们 利用 和 定 和 多 牙 谋 泗 的 各 种 红 日 变种 酒 的 数据 把 
1599 PRELA 4) TA 4898 种 白 简 移 酒 的 化 学 成 分 绘制 了 出 来 ， 图 中 涉及 
两 种 化 学 成 分 ， 即 所 化 物 〈 横 轴 ) 和 二 氧化 硫 〈 纵 轴 )。 


氧化 硫 


二 


氯 化 物 
图 7-3 Aaa CSS) FZ Aa (40S) 中 氛 化 物 和 二 氧化 硫 的 含量 
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因为 衔 萄 皮 中 的 矿物 质 〈 比 如 氧化 钠 ， 与 食盐 成 分 一 样 ) 含量 较 
高 ， 所 以 红 葡 移 酒 中 这 些 成 分 的 含量 就 相对 较 高 ， 图 中 很 好 地 反映 出 了 
H. HAW RODS ARADUAICA, FRE Had RETF. AA 
不 包含 这 种 成 分 ， 所 以 需要 使 用 更 多 的 二 氧化 硫 来 充当 防腐 剂 。 正 征 这 
些 原 因 使 得 红 葡 侈 泗 大 都 集中 在 图 中 的 右 下 部 分 ， 白 区 和 欧 泗 则 主要 集中 
在 左上 部 分 。 


在 推断 含有 特定 量 氢 化 物 和 二 氧化 硫 的 葡萄 酒 的 闫 色 时 ， 可 以 参 
考 与 其 有 相似 化 学 成 分 含量 的 区 衔 酒 的 颜色 。 对 图 中 每 个 点 都 这 样 做 一 
这， 可 以 画 出 用 以 区 分 红 有 有 和 铭 泗 和 日 定 和 铭 泗 的 分 罕 线 。 如 图 7-2b Arm, 
在 理想 拟 合 的 情况 下 ， 推 断 区 敬酒 颜色 的 准确 率 超过 98%。 


7.4 Ss 


k 最 近邻 算法 不 仅 可 以 用 来 预测 数据 点 的 类 别 和 取 值 ， 还 可 以 用 来 
识别 异常 ， 比 如 检测 欺诈 行为 。 而 且 ， 在 异 第 检测 过 程 中 还 可 能 会 有 新 
的 发 现 ， 比 如 发 现 之 前 被 名 略 的 预测 变量 。 


数据 可 视 化 让 异常 检测 变 得 简单 。 比 如 在 图 7-3 中 ， 我 们 能 一 眼看 
出 哪些 酒 偏离 了 它们 所 属 的 群 组 。 不 过 ， 并 非 所 有 数据 都 可 以 用 二 维 图 
表示 ， 尤 其 是 当 要 检查 的 预测 变量 超过 两 个 时 ， 更 古 如 此 。 这 正 古 上 取 
近邻 等 预测 模型 大 显 映 手 的 时 候 。 


因为 上 最 近邻 算法 利用 数据 中 的 隐藏 模式 做 预测 ， 所 以 如 打出 现 预 
测 误差 ， 融 说 明 数 据点 和 总 体 趋 劳 不一致。 事实 上 ， 任 何 能 够 产生 预测 
模型 的 算法 都 可 以 用 来 检测 异 笛 。 比 如 ， 在 回归 分 析 中 ， 如 采 某 个 数据 
点 明显 偏离 最 佳 拟 合 线 ， 那 么 束 会 被 识别 为 寞 毅 氮 。 

稍微 分 析 一 下 葡萄 河 颜 色 归 类 错误 时 的 异 稼 数据 ， 就 会 发 现 那些 被 
错 划 成 日 简 侈 亩 的 红 衔 千 泗 往往 舍 有 较 多 的 二 氧化 硫 。 由 于 这 些 葡 移 调 
的 酸度 较 低 ， 因 此 需要 更 多 的 二 氧化 硫 来 充当 防腐 剂 。 如 采 知 道 了 这 一 
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氮 ， 那 么 我 们 可 能 会 把 衔 欧 泗 的 酸度 也 答 碟 进去 ， 从 而 进一步 提高 预测 
的 准确 度 。 


异 和 肖 数 据点 既 可 能 因 人 缺失 预 测 变 量 所 致 ， 也 可 能 因 预 测 模 型 缺少 足 
够 的 训练 数据 所 致 。 我 们 拥有 的 数据 点 越 少 ， 就 越 难 发现 隐藏 于 数据 中 
的 模式 ， 所 以 务必 确 你 建 模 时 有 足够 的 样本 可 用 。 


一 旦 找到 异常 数据 把 ， 就 要 将 它们 从 数据 集中 移 除 ， 然 后 再 训练 预 
测 模 型 。 这 样 做 可 以 减少 数据 中 包含 的 噪声 ， 进 而 提高 模型 的 准确 度 。 


7.5 局 限 性 


尽管 大 最 近邻 算法 简单 且 实 用 ， 但 是 在 如 下 情形 中 使 用 该 算法 可 能 
无 法 取得 好 的 效 采 。 


O 类 别 不 平衡 : 如 采 竺 预测 的 类 别 有 多 个 ， 并 且 在 大 小 方面 存在 
很 大 的 不 同 ， 那 么 那些 属于 最 小 类 别 的 数据 点 可 能 会 被 来 自 更 
大 类 别 的 数据 点 所 掩盖， 它们 被 错误 分 类 有 的 风险 更 大 。 为 了 所 
高 准确 度 ， 可 以 使 用 加 权 投 票 法 来 取代 少数 服从 多 数 的 原则 ， 
这 会 确 你 较 近 数据 点 类 别 的 权重 比较 远 的 更 大 。 

O 预测 变量 过 多 : 如 末 待 沽 虑 的 预测 变量 太 多 ， 在 多 个 维度 上 识别 
和 处 理 近邻 会 导致 计算 量 大 增 。 而 且 , 有 些 预 济 变 量 可 能 是 多 余 的 ， 
它们 对 提高 预测 准确 度 没 有 用 处 。 为 了 解决 这 个 同 题 ， 可 以 使 用 
第 3 革 介 绍 的 降 维 技巧 ， 只 抽取 最 具 影 响 力 的 预测 变量 用 于 分 析 。 


7.6 小 结 


D 大 最 近邻 算法 根据 周围 数据 点 的 类 型 对 茶 个 数据 点 进行 分 类 。 

O 表示 用 作 参 考 的 数据 点 的 个 数 ， 可 以 使 用 交叉 验证 法 来 确定 。 

O 当 预 测 变 量 数 目 不 多 ， 并 且 类 别 大 小 差别 不 大 时 ,最 近邻 算法 
才能 产生 非 稼 好 的 效 末 。 不 准确 的 分 类 可 能 会 被 标记 为 区 在 异 前 。 


SOS 


Sissi 


8.1 ”医学 诊断 


医学 诊断 古 复杂 的 过 程 。 医 生 在 做 诊断 时 ， 不 仅 需 要 旁氏 患者 的 多 
个 症状 ， 而 且 目 己 的 主观 看 法 很 容 多 影响 诊断 结 未 。 有 时 ， 当 正确 的 诊 
断 结 未 出 来 时 ， 才 发 现 为 时 已 晚 。 一 种 更 系统 的 诊断 方法 是 使 用 一 些 算 
法 通过 整个 医疗 数据 库 进行 训练 ， 用 以 提高 预测 准确 度 。 


本 革 将 介绍 一 种 新 的 预测 技术 一 一 支持 问 量 机 。 借 助 这 种 技术 可 以 
得 到 最 优 分 类 边界 ， 并 把 就 医者 分 为 两 组 (比如 “健康 ”和 “不 健康 ”)。 


8.2 示例 : 预测 心脏 病 


在 发 达 国 家 ， 心 脏 病 是 常见 疾病 之 一 ， 心 血管 锋 罕 或 阻塞 都 会 增加 包 
官 心脏 病 的 风险 。 这 种 疾病 通过 影像 扫 民 可 以 得 到 明确 的 诊断 结 未 ， 但 是 影 
像 扫 揪 的 费用 较 高 ， 大 部 分 人 很 难 人 负担 得 起 定期 做 影像 扫 拉 的 费用 。 一 种 解 
决 方案 征 根 据 生理 症状 把 高 危 人 群 筛选 出 来 ， 然 后 给 这 些 人 做 定期 扫 摘 。 


为 了 碍 明 哪些 症状 可 以 用 来 判断 是 否 得 了 心 胜 病 ， 一 家 美国 诊所 散 
请 多 位 患者 参加 人 研究 。 他 们 要 求 这 些 患 者 做 运动 ， 同 时 记录 他 们 的 多 项 
生理 指标 ， 比 如 运动 过 程 中 的 最 大 心率 和 等。 随后， 他们 对 患者 做 影像 扫 
描 ， 判 断 是 否 患 有 心脏 病 。 如 图 8-1 所 示 ， 通 过 开发 支持 问 量 机 预测 模 
型 (考察 对 象 包括 心率 数据 和 患者 年 龄 )， 我 们 能 够 预测 患者 古 否 得 了 
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心脏 病 ， 预 测 准 确 度 超过 75%。 


运动 时 的 最 大 心率 


30 40 50 60 70 


图 8-1 使 用 支持 向 量 机 预测 患者 是 否 有 心脏 病 。 图 中 深 绿色 区 域 反 映 的 是 健 
康成 年 人 的 情况 ， 而 灰色 区 域 反 映 的 是 心脏 病 患者 的 情况 。 绿 点 和 刺 

点 分 别 代表 健康 成 年 人 和 心脏 病 患者 
一 般 来 说 ， 相 比 于 同龄 的 健康 人 〈 绿 点 )， 心 脏 病 患者 〈 轩 点 ) 在 
运动 期 间 的 心率 更 低 ， 并 且 在 超过 55 SWAER, BUD WEAN AES. 


尽管 心率 似乎 随 着 年 龄 的 增长 而 降低 ， 但 古 实际 上 60 多 左右 的 心脏 
渍 患者 的 心率 接近 于 健康 的 年 轻 人 ， 这 一 点 可 以 从 决策 边界 的 同 弧 看 出 
Ke BA ENE ASCH A ALA Sik PM, BATRA HER CIR AW. 


8.3 ”勾画 最 佳 分 界线 


支持 向 量 机 的 主要 目标 是 得 到 一 条 能 用 于 分 组 的 最 佳 分 界线 。 这 并 
不 像 听 上 去 那么 简单 ， 因 为 能 用 于 分 组 的 分 界线 可 能 有 多 条 (如 图 8-2 
所 示 )。 
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图 8-2 有 多 条 线 可 以 把 两 组 分 开 


为 了 找 出 最 佳 分 界线 ， 首 先 需要 从 一 组 中 找 出 距离 男 一 组 最 近 的 外 
围 数据 点 ， 然 后 在 两 组 的 外 围 数 据点 之 间 画 出 最 佳 分 界线 (如 图 8-3 所 
示 )。 由 于 这 些 外 围 数据 点 在 寻找 最 佳 分 界线 的 过 程 中 起 了 支持 作用 ， 
因此 它们 叫 作 支持 向 量 。 


图 8-3 最 佳 分 界线 位 于 两 组 的 外 围 数据 点 之 间 
文 持 癌 量 机 的 一 个 优点 是 计算 速度 很 快 。 它 仅 依靠 外 围 数 据点 就 能 
找到 决策 边界 。 与 回归 分 析 〈 需 要 考虑 每 个 数据 点 才能 得 到 趋势 线 ， 详 
见 第 6 草 ) 等 技术 相 比 ， 支 持 同 量 机 做 推导 所 化 的 时 间 更 少 。 
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然而 ， 这 种 对 数据 点 子 集 的 依赖 也 有 缺点 ， 这 是 因为 决策 边界 对 支 
持 问 量 的 位 置 比 较 敏感 ， 选 取 不 同 的 数据 点 作为 训练 数据 ， 相 应 支持 问 
量 的 位 置 也 不 同 。 而 且 ， 实 际 的 数据 点 很 少 像 图 8-2 和 图 8-3 中 的 那样 
容易 划分 。 事 实 上 ， 备 组 数据 点 可 能 重合 ， 如 图 8-1 所 示 。 


为 了 解 决 上 述 问 题 ， 文 持 癌 量 机 算法 有 一 个 关键 特征 一 一 缓冲 市 ， 它 
允许 一 定数 量 的 训练 数据 点 位 于 错误 的 一 边 。 由 此 得 到 一 条 “更 软 ” 的 分 
界线 ， 它 对 异常 值 有 更 强 的 耐 扰 性 ， 因 此 对 新 数据 有 更 强 的 泛 化 能 


缓冲 市 通过 调整 生 罚 参数 得 到 ， 这 个 参数 决定 了 对 分 类 误差 的 宽容 
BE. META BOK, TAK, Rew. A TREA 
前 数据 和 新 数据 有 较 高 的 预测 准确 度 ， 可 以 使 用 交叉 验证 法 (参见 1.4.3 
W) 求 得 最 佳 惩罚 参数 。 


支持 癌 量 机 的 男 一 个 强项 是 找到 决策 边界 的 凸 浙 。 虽 然 许 多 其 他 技 
术 也 可 以 做 到 这 一 点 ， 但 是 文 持 同 量 机 备 受 青睐 ， 因 为 它 在 发 现 钳 综 复 
杂 的 同 弧 时 有 着 更 出 众 的 计算 效率 。 文 持 癌 量 机 的 秘诀 古 核 技 巧 。 


支持 癌 量 机 不 会 下 接 在 数据 平 血 上 绘制 有 凸 弧 的 分 界线 ， 而 古 会 自 
先 把 数据 映射 到 高 维 空间 ， 然 后 在 高 维 空间 中 将 数据 点 用 直线 分 开 (如 
图 8-4 所 示 )。 这 些 直 线 容易 计算 ， 并 且 当 映射 回 低 维 空间 时 也 很 容易 
转换 成 曲线 。 
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图 8-4 当 把 二 维 平 面 上 的 点 映射 到 三 维 球面 上 后 ， 原 来 包围 监 点 的 圆圈 就 可 
以 用 一 条 直线 表示 
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LFE ELR FE rei EZ AERIS), AE EEA TAS 
个 变量 的 数据 集 时 大 受 欢迎 。 支 持 向 量 机 的 常见 应 用 场景 包括 遗传 信息 
破译 以 及 文本 情感 分 析 。 


8.4 局 限 性 


尽管 支持 癌 量 机 是 一 个 应 用 很 三 的 快速 预测 工具 ， 但 它 在 如 下 情况 
下 表现 欠 佳 。 


D 小 数据 集 : 由 于 支持 问 量 机 依靠 支持 向 量 确定 决策 边界 ， 因 此 
样本 量 少 意味 着 用 来 对 分 和 寞 线 进 行 准确 定位 的 数据 也 少 。 

O 多 组 数据 : 文 持 癌 量 机 每 次 只 能 对 两 组 进行 分 类 。 如 采 存 在 两 
个 以 上 的 组 ， 则 需要 对 每 组 都 应 用 文 持 回 量 机 ， 以 便 将 其 从 其 
余 组 中 分 出 来 。 这 个 技术 叫 作 多 类 支持 向 量 机 。 

O MAB GEKEER: 支持 癌 量 机 根据 数据 点 落 在 决策 边界 
哪 一 边 对 其 进行 分 类 。 当 两 组 的 数据 点 存在 大 量 重 登 时 ， 徘 近 
边界 的 数据 点 可 能 更 容易 发 生 分 类 错误 。 而 且 ， 支 持 癌 量 机 没 
有 给 出 每 个 数据 扣 遭 吉 错 误 分 类 的 概率 。 但 是 ， 可 以 通过 数据 
扩 到 决策 边界 的 距离 来 估计 其 被 正确 分 类 的 可 能 性 。 


8.5 JA 


O 文 持 疝 量 机 用 来 把 数据 点 分 为 两 组 ， 其 方法 古 在 两 组 的 外 围 数 
据点 《〈 即 支持 向 量 ) 的 中 间 画 一 条 分 界线 。 


D 支持 向 量 机 对 异常 值 有 较 好 的 容忍 度 。 它 通过 一 个 缓冲 带 侈 许 
少量 数据 点 位 于 错误 的 一 边 。 此 外 ， 它 还 通过 核 技巧 高 效 地 求 


得 带 凸 弧 的 决策 边界 。 
D 当 需 要 把 大 样本 中 的 数据 点 分 为 两 组 时 ， 文 持 向 量 机 能 够 发 挥 
了 最 佳作 用 。 


GEES 


R R W 


9.1 FUSS 


在 灾难 发 生 后 ， 某 些 人 《比如 妇女 和 孩子 ) 可 能 会 被 优先 照顾 ， 因 
此 他 们 活 下 来 的 可 能 性 更 大 。 在 这 种 情况 下 ， 可 以 使 用 决策 树 来 判断 某 
BE ERATE POR. 


本 例 的 决策 树 通过 一 ee 
性 ， 如 图 9-1 所 示 。 每 个 二 元 选择 题 只 有 两 个 备 选 答案 〈 比 如 “是 ”或 
“ 否 ”)。 从 最 顶层 的 选择 题 《又 叫 根 节 点 ) 开始 ， 然 后 沿 着 树枝 不 断 移 
动 ， 直 到 到 达 叶 市 点 ， 并 得 出 此 人 的 生还 概率 。 


\ \ H \ 

Ny A : Gel p 、 

根 节点 Q 生还 

SC Q er 
是 男性 吗 ? 


ër 
N 


\ - 和 - 、 
ch EK 


生还 概率 为 100% 生还 概率 为 75% 


图 9-1 决策 树 示 例 
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9.2 示例 : 和 逃离 泰坦 尼克 号 


为 了 说 明 如 何 通 过 决策 树 预 测 乘 客 生还 概率 ， 我 们 选用 了 由 类 国贸 
多 委员 会 整理 的 泰坦 尼 殉 亏 乘 客 数据 ， 用 以 判断 什么 样 的 乘客 生还 的 可 
能 性 更 大 。 图 9-2 展示 了 使 用 决策 树 预测 乘客 生还 概率 的 情况 。 


是 bi 
bm bm 
20% 27% 100% 46% 93% ”生还 概率 


图 9-2 使 用 决策 树 判 断 一 个 人 能 否 逃 离 泰 坦 尼克 号 


从 决策 树 可 知 ， 对 于 男孩 或 者 女性 来 说 ， 只 要 不 在 三 等 舱 ， 那 么 活 
下 来 的 可 能 性 就 很 大 。 


决策 树 有 许多 用 处 ， 比 如 预测 疾病 的 存 匣 率 ， 售 计 员 工 的 辞职 概 
率 ， 或 者 检测 欺诈 交易 等 。 此 外 ， 决 策 树 还 可 以 用 来 处 理 分 类 加 题 CEE 
如 男性 和 女性 ) 或 连续 值 问题 (比如 工资 )。 请 注意 ， 连 续 值 问题 有 时 
可 以 转化 为 分 类 问题 ， 比 如 比较 高 于 和 低 于 平均 值 的 值 。 


标准 决策 树 的 每 个 分 支 只 存在 两 个 答案 ， 比 如 “是 ”或 “ 否 "。 如 
果 有 两 个 以 上 的 答案 (比如 “是 ~“ 否 "”“ 有 时 ”) ， 可 以 沿 着 分 支 继续 向 
PSN Si (ANE 9-3 所 示 )。 
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生还 概率 为 100% 生还 概率 为 50% 
9-3 在 决策 树 中 测试 多 个 类 别 
决策 树 之 所 以 受 欢迎 ， 是 因为 它 容易 解释 。 那 么 ， 如 何 生 成 决策 
树 呢 ? 


9.3 ”生成 决策 树 


要 生成 决策 树 ， 首 先 根据 相似 性 把 所 有 数据 后 分 为 两 组 ， 然 后 
针对 每 组 重复 这 个 二 分 过 程 。 每 一 层 时 区 点 都 比 上 一 层 包 含 更 少 的 数据 
点 ， 但 同 质 性 更 高 。 决 策 树 的 理论 基础 是 ， 相 同 路 径 上 的 数据 点 彼此 是 
相似 的 。 


这 个 反复 拆 分 数据 以 得 到 同 质 组 的 过 程 被 称 为 递归 拆 分 ， 它 只 包含 
如 下 两 个 步骤 。 


步骤 1: 确定 一 个 二 元 选择 题 ， 它 能 够 把 数据 点 拆 分 为 两 组 ， 并 最 
大 限度 地 捉 高 每 组 数据 点 的 同 质 性 。 
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步骤 2: 针对 每 个 叶 廊 把 重 复 步 又 1， 直 到 满足 终止 条 件 。 


9-4 展示 了 一 个 决策 树 生 成 示例 。 
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图 9-4 通过 决策 树 拆 分 数据 点 并 用 艇 点 图 表示 出 来 
终止 条 件 可 能 有 多 个 ， 可 以 使 用 交叉 验证 法 ( 详 见 1.4.3 节 ) 进行 

选取 。 本 例 有 以 下 终止 条 件 : 


O 每 个 叶 市 把 中 的 数据 点 全 属于 同一 类 或 有 相同 的 值 ， 
O 叶 市 把 包含 的 数据 点 少 于 5 个 ; 
O 进一步 分 支 会 超出 国 值 并 且 不 能 提高 同 质 性 。 


由 于 递归 拆 分 只 用 最 佳 二 元 选择 题 来 生成 决策 树 ， 因 此 不 显著 的 变 
量 并 不 会 影响 结 有 来。 而且， 二 元 选择 题 往往 围 纸 着 最 重要 的 值 划分 数据 
尽 ， 所 以 决策 树 对 异常 值 有 较 强 的 耐 扰 性 。 


9.4 局 限 性 


虽然 决策 树 容 多 解释 ， 但 存在 如 下 缺 后 。 
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O 不 稳定 : 决策 树 是 通过 把 数据 点 分 组 生成 的 ， 数 据 中 的 细微 变 
化 可 能 影响 拆 分 结果 ， 并 导致 生成 的 决策 树 截 然 不 同 。 此 外 ， 
每 次 拆 分 数据 点 时 部 力求 找到 最 佳 拆 分 方式 ， 这 很 容 多 产生 过 
拟 合 问题 ( 详 见 1.3 市 )。 

O 不 准确 : 一 开始 就 使 用 最 佳 二 元 选择 题 拆 分 数据 点 ， 并 不 能 保 
证 结 有 了 最 人 准确。 有时， 先 用 不 太 有 效 的 分 法 反而 会 产生 比较 好 
的 预测 结 条 。 


为 了 殉 服 上 述 缺 点 ， 每 次 拆 分 时 可 以 不 采用 最 佳 拆 分 方式 ， 而 征 尽 
SIE SIC. Sch, BRADERIE RAT EMMER, Lhe 
预测 结 东 具有 更 好 的 稳定 性 和 准确 性 。 


决策 树 的 多 样 化 方法 有 如 下 两 种 。 


O 随机 森林 : 随机 选择 不 同 的 二 元 选择 题 ， 生 成 多 棵 决策 树 ， 然 
JER AIK EER ERAS. FS 10 草 将 详解 这 种 方法 。 

O 梯度 提升 : 有 策略 地 选择 二 元 选择 题 ， 以 逐步 提高 决策 树 的 预 
测 准 确 度 ， 人 然后 将 所 有 预测 结 东 的 加 权 平 均 数 作为 最 终结 本 。 


虽然 随机 和 森林 和 梯度 捉 升 能 够 产生 更 准确 的 预测 结 末 ， 但 是 它们 往 
往 比 较 复杂 ， 并 且 很 难 进行 可 视 化 ， 因 而 得 名 “ 妓 盒 。 这 也 解释 了 为 
什么 决策 树 至 今 仍然 古 一 个 三 受 欢迎 的 分 析 工 具 : 它 多 于 可 视 化 ， 这 使 
我 们 更 容 多 评 佰 预测 变量 及 其 相互 作用 。 


9.5 小 结 


O 决 荣 树 通 过 询 辐 一 系列 二 元 选择 题 来 做 预测 。 

D 奋力 生成 决策 树 ， 就 要 不 断 拆 分 数据 样本 以 狭 得 同 质 组 ， 直 到 
满足 终止 条 件 。 这 个 过 程 被 称 为 递归 拆 分 。 

O 虽然 决策 树 多 于 使 用 和 理解 ， 但 是 容易 造成 过 拟 合 问题 ， 导 至 
出 现 不 一 致 的 结 东 。 为 了 尽量 避免 出 现 这 种 情况 ， 可 以 采用 随 
机 森林 等 百代 方法 。 


第 10 章 


随机 和 森林 


10.1 SS 


综合 右 干 错误 的 预测 结 末 ， 可 以 得 到 正确 的 预测 结 灯 吗 ? 管 案 是 可 
LA! 这 好 像 违 痛 直 完 ， 但 优秀 的 预测 模型 可 以 做 到 ， 其 至 理应 如 此 。 


这 基于 以 下 事实 : 虽然 错误 的 预测 结 末 可 能 有 很 多 ,但 古 正 确 的 
只 有 一 个 。 通 过 组 合 具 有 不 同 优 缺 点 的 模型 ， 往 往 能 踢 化 正确 的 预测 结 
坟 ， 同 时 使 错误 相互 抵消 。 这 种 通过 组 合 不 同 模型 来 提高 预测 准确 度 有 的 
方法 被 称 为 集成 方法 。 


第 9 革 介 绍 了 决策 树 ， 本 章 要 讲 的 随机 和 森林 就 古 基 于 决策 树 的 一 
种 集成 方法 。 为 了 说 明 随 机 和 森林 为 何 优 于 决策 树 ， 我 们 首先 生成 1000 
棵 决策 树 ， 用 来 预测 可 能 发 生 在 美国 旧金山 的 犯罪 行为 ， 然 后 基于 这 
1000 棵 决策 树 生 成 一 个 随机 森林， 并 比较 二 者 的 预测 准确 度 。 


10.2 示例 : 预测 犯罪 行为 


我 们 采用 的 数据 来 自 于 旧金山 警察 局 ， 这 些 公 开 的 数据 反映 了 
2014~2016 年 在 旧金山 发 生 的 犯罪 事件 ， 包 括 地 点 、 日 期 和 严重 程度 。 
初步 研究 显示 ， 这 些 犯 罪 事 件 多 发 生 在 天 气 炎 热 时 ， 所 以 我 们 还 获取 了 
同一 时 间 段 的 天 气 记 录 ， 包 括 每 日 气温 和 降水 量 。 
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假设 旧金山 警察 局 的 警 员 和 资源 配置 有 限 ， 无 法 派出 足够 的 警力 在 


所 有 可 能 发 生 犯 罪行 为 的 片区 巡逻 。 所 以 ， 我 们 要 创建 一 个 预测 模型 ， 
找到 每 天 最 有 可 能 发 生 暴力 犯罪 行为 的 前 30% 个 厂区 ， 并 优先 向 这 些 


片区 派遣 巡逻 的 栎 员 
初步 分 析 显 示 ， 犯 罪 事 件 主要 发 生 在 旧金山 东北 部 ， 如 图 10-1 中 
的 方 框 所 示 。 因 此 ， 我 们 把 方 框 内 的 区 域 分 得 更 小 (260 米 x 220 %), 


以 做 进一步 分 析 。 


高 (红色) 


登 色 ) 高 


图 10-1 旧金山 犯罪 频率 热 图 :很 低 (灰色 )、 低 (黄色 )、 中 (# 
为 了 了 预测 犯罪 事件 可 能 发 生 的 时 间 和 地 点 ， 先 根据 犯罪 事件 数据 
和 天 气 数据 生成 1000 棵 决策 树 ， 然 后 把 它们 组 合 起 来 ， 形 成 随机 和 森林 。 
我 们 使 用 2014~2015 年 的 数据 训练 预测 模型 ， 并 且 使 用 2016 年 (从 1 
月 到 8 H) 的 数据 测试 模型 的 准确 度 。 
那么 ， 这 个 随机 森林 模型 的 预测 效果 如 何 呢 ? 
经 过 测试 ， 我 们 发 现 随 机 森林 模型 成 功 了 预测 出 72% 的 暴力 犯罪 事 
件 。 相 比 之 下 ，1000 棵 决策 树 的 平均 预测 准确 度 只 有 67%， 如 图 10-2 


所 示 。 
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10-2 ”预测 准确 度 直方 图 : 1000 棵 决策 树 的 平均 预测 准确 度 是 67%， 而 由 这 
1000 棵 决策 酝 组 成 的 随机 森林 则 能 达到 72% 的 预测 准确 度 

在 这 1000 棵 决策 树 中 ， 仅 有 12 棵 树 的 预测 结果 比 随机 森林 维 确 。 
根据 这 一 点 ， 我 们 确信 随机 和 森林 的 预测 结 未 要 优 于 单 棵 决 沫 笃 。 


图 10-3 显示 了 随机 和 森林 模型 连续 4 天 的 预测 结 朱 。 和 根据 预 刷 ， 警 
察 局 应 该 往 红色 区 域 增 派 警 力 ， 派 往 灰色 区 域 的 则 不 必 太 多 。 在 犯罪 频 
发 的 片区 增加 近 逻 力度 似乎 是 理所当然 的 做 法 ,但 古 模 型 还 进一步 指出 
了 在 非 红 色 区 域内 发 生 犯 罪 事 件 的 可 能 性 。 以 第 4 天 的 预测 结果 为 例 ， 
模型 准确 预测 了 在 灰色 区 域内 发 生 的 一 起 犯罪 事件 ， 而 此 前 3 天 此 处 并 
未 出 现 过 骏 力 犯罪 事件 。 
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第 1 天 第 2 天 
第 3 天 第 4 天 


110-3 ”随机 森林 模型 连续 4 天 的 预测 结果 。 图 中 ， 圆 圈 表 示 模 型 认为 可 能 
生 暴 力 犯罪 事件 ， 实 心 圆 表 示 预 测 准 确 ， 又 号 表示 实际 发 生 过 暴力 犯 
罪 事 件 ， 但 模型 未 能 预测 
随机 森林 模型 还 能 让 我 们 看 到 哪些 变量 对 预测 维 确 度 的 有 影 响 最 大 。 
从 图 10-4 可 以 看 出 ， 影 响 大 的 变量 有 犯罪 频率 、 地 点 、 哪 月 哪 日 以 及 
当日 气温 。 
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10-4 对 随机 森林 模型 的 预测 准确 度 影响 大 的 变量 


本 廊 让 我 们 见识 了 随机 森林 在 预测 如 犯罪 行为 这 类 复杂 现象 时 表现 
出 的 强大 优势 。 那 么 ， 随 机 条 林 的 原理 是 什么 呢 ? 


10.3 集成 异型 


随机 和 森林 臣 决 策 笛 的 集成 模型 。 集 成 重型 十 通 过 组 合 许多 模型 的 预 
测 结 采 得 到 的 预测 模型 。 在 组 合 模型 时 ， 既 可 以 齐 循 少数 服从 多 数 的 原 
则 ， 也 可 以 取 平 均值 。 


从 图 10-5 可 以 看 到 ， 相 比 于 子 模型 ， 集 成 模型 的 预测 准确 度 更 高 
(本 例 遵循 少数 服从 多 数 的 原则 )。 这 是 因为 准确 的 预测 模型 会 彼此 强 
化 ， 午 误 的 则 会 彼此 抵消 。 为 了 达到 这 种 效 末 ， 集 成 模型 的 子 模型 一 定 
不 能 犯 同类 错误 。 换 言 之 ， 子 模型 必须 是 不 相关 的 。 
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准确 度 70% 
准确 度 70% 
准确 度 60% 


图 10-5 ”对 10 个 输出 做 或 蓝 或 红 的 预测 ， 最 后 一 个 是 集成 模型 ， 由 前 3 个 模 
型 组 成 。 正 确 结果 应 该 是 10 个 输出 全 为 监 色 。 相 比 之 下 ， 集 成 模型 
的 预测 准确 度 最 高 
有 一 种 系统 化 方法 可 以 用 来 生成 不 相关 的 决策 树 ， 这 种 方法 叫 作 自 
BER SEE 


10.4 目 助 聚集 法 


第 9 革 讲 过 ， 在 构建 决策 树 的 过 程 中 ， 需 要 按照 取 佳 变量 组 合 不 断 
拆 分 数据 集 。 然 而 ， 找 到 合适 的 变量 组 合并 不 容易 ， 因 为 决策 树 容易 出 
现 过 拟 合 问题 (相关 内 容 详 见 1.3 市 )。 


为 了 解决 上 述 问 题 ， 首 先 通过 随机 组 合 变量 来 构建 多 棵 决策 树 ， 然 
后 把 这 些 决策 和 酝 聚 集 起 来 ， 形 成 随机 和 森林。 


目 助 聚 集 法 用 于 生成 数 和 干 棵 决策 树 ， 这 些 树 彼此 有 明显 的 不 同 。 为 
使 决策 树 之 辐 的 关联 度 最 小 化 ， 每 棵 树 都 由 训练 数据 集 的 一 个 随机 子 集 
产生 ， 并 且 使 用 的 古 预 测 变 量 的 一 个 随机 子 集 。 这 让 生成 的 决策 树 各 不 
相同 ， 但 仍然 保留 了 一 定 的 预测 能 力 。 图 10-6 显示 了 如 何 限制 决策 树 
生成 过 程 所 用 的 预测 变量 。 

在 图 10-6 F, ARA 9 个 预测 变量 ， 每 个 变量 用 一 种 颜色 表示 。 
每 次 拆 分 时 所 用 的 预测 变量 子 集 都 从 这 9 个 预测 变量 中 随机 抽取 ， 决 策 
树 算 法 在 每 次 拆 分 时 会 从 随机 抽取 的 预测 变量 中 选择 最 好 的 。 
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10-6 使 用 目 助 聚 集 法 生成 决策 树 


通过 限制 每 次 拆 分 时 所 用 的 预测 变量 ， 能 够 生成 各 不 相同 的 决策 
树 ， 从 而 避免 发 生 过 拟 合 问题 。 为 了 进一步 降低 发 生 过 拟 合 问题 的 可 能 
性 ， 可 以 增加 随机 森林 中 的 决策 树 数量 ， 使 模型 更 通用 、 更 准确 。 


10.5 局 限 性 


任何 模型 都 不 宛 美 。 征 合 选 用 随机 和 森林 模型 ， 需 要 在 模型 的 预测 能 
力 和 结 东 的 可 解释 性 乙 间 做 权衡 。 


随机 和 森林 古 一 个 “ 某 盒 ”: 它 由 随机 生成 的 决策 树 组 成 ,并且 不 存 
在 明确 的 预测 规则 。 比 如 ， 我 们 无 法 准确 地 知道 随机 森林 模型 如 何 得 出 
有 关 犯 罪 地 点 和 时 间 的 预测 结 来 ， 而 只 知道 它 的 大 部 分 决策 树 都 得 出 了 
一 致 鸭 结论 。 当 把 随机 森林 模型 应 用 到 医疗 诊断 等 领域 时 ， 这 种 不 可 解 
释 性 可 能 会 市 来 一 些 伦理 问题 。 


尽管 如 此 ， 随 机 和 森林 仍然 因为 容 多 实现 而 被 广泛 应 用 ， 尤 其 适用 于 
那些 预测 准确 度 比 可 解释 性 更 重要 的 场合 。 
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10.6 ”小结 


随机 和 森林 的 预测 结 采 往往 比 单 棵 决策 树 更 准确 ， 这 是 因为 它 充 
分 利用 了 两 种 技术 : 目 助 聚集 法 和 集成 方法 。 

O 目 助 聚集 法 通过 随机 限制 数据 拆 分 过 程 所 用 的 变量 来 生成 一 系列 
不 相关 的 决策 树 ， 集 成 方法 则 把 决策 树 的 预测 结 霖 组 合 在 一 起 。 
O 虽然 随机 森林 的 预测 结 东 不 具有 可 解释 性 ， 但 是 仍然 可 以 根据 

对 预测 结果 的 页 献 度 大 小 对 各 个 预测 变量 进行 排序 。 


第 11 童 


昼 经 网 络 


11.1 建造 人 工 智能 大 脑 


猜 一 猜 ， 图 11-1 中 的 是 什么 动物 ? 


图 11-1 看 图 猜 动 物 
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尽管 图 中 的 动物 胖 得 出 奇 ， 你 也 应 该 能 够 猜 到 它 是 一 只 长 天 旋 。 人 
类 的 大 脑 拥 有 强大 的 辨识 能 力 ， 它 是 一 个 由 差不多 800 亿 个 神经 元 组 成 
的 复杂 网 络 。 即 使 荣 物 并 非 我 们 熟知 的 模样 ， 我 们 也 能 够 轻松 地 识别 。 
大 脑 神经 元 彼此 协同 工作 ， 它 们 把 输入 信号 (PORIRUA) 转换 
成 相应 的 输出 标签 〈 比 如 “长 须 鹿 )。 神 经 网 络 技术 的 诞生 正 是 受到 人 
脑 神 经 元 的 局 发 。 


神经 网 络 契 目 动 图 像 识 别 的 基础 ， 由 神经 网 络 衍 生出 的 一 些 技 术 在 
执行 速度 和 准确 度 上 都 超过 了 人 类 。 近 年 来 ， 神 经 网 络 技术 大 热 ， 这 其 
中 主要 有 3 个 原因 。 


O 数据 存储 和 共享 技术 取得 进步 : 这 为 训练 神经 网 络 提供 了 海量 
数据 ， 有 助 于 改善 神经 网 络 的 性 能 。 

O 计算 能 力 越 来 越 强 大 :GPU (graphics processing unit, 图 形 处 理 器 ) 
的 运行 速度 最 快 能 达到 CPU (central processing unit, 中 上 央 处 理 絮 ) 
的 150 倍 。 之 前 ,GPU 主要 用 来 在 游戏 中 显示 高 品质 图 像 。 后 来 ， 
人 们 发 现 它 能 为 在 大 数据 集 上 训练 神经 网 络 所 供 强 大 的 支持 。 

O 算法 获得 改进 : 虽然 目前 神经 网 络 在 性 能 上 还 很 难 与 人 脑 媲美 ， 
但 是 已 有 一 些 能 大 幅 改 善 其 性 能 的 技术 。 本 和 章 会 介绍 其 中 一 些 
技术 。 


目 动 图 像 识 别 是 神经 网 络 技术 的 有 力 例 证 ， 它 被 应 用 于 许多 领域 ， 
包括 视觉 监控 和 汽车 目 主 导航 ， 其 至 还 出 现在 智能 手机 中 ， 用 来 识别 手 
写 体 。 下 面 来 看 看 如 何 训练 能 识别 手写 体 的 神经 网 络 。 


11.2 示例 : 识别 手写 数字 


本 示例 使 用 的 手写 数字 来 自 于 MNIST (Mixed National Institute of 
Standards and Technology) 数据 库 ， 如 图 11-2 所 示 。 
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图 11 


为 了 让 计算 机 读 取 图 像 ， 必 须 先 把 图 像 转换 成 像素 。 疏 色 像 素 用 0 
表示 ， 白 色 像 素 用 1 表示 ， 如 图 11-3 所 示 。 如 采 图 像 是 彩色 的 ， 则 可 
以 使 用 三 原色 的 色相 值 来 表示 。 


MNIST 数据 库 中 的 手写 数字 


0000000000000000 
0000000011100000 
0000001110000000 
0000011000000000 
0000110000000000 
0000100000000000 
0001100000000000 
0001000000000000 
0001001111110000 
0001011000011000 
0001110000001000 
0001110000001000 
0000110000011000 
0000011000110000 
0000001111100000 
0000000000000000 


图 11-3 ”把 一 幅 图 像 转换 为 像素 


一 旦 图 像 完 成 像素 化 ， 就 可 以 把 得 到 的 值 交 给 神经 网 络 。 在 本 例 
中 ， 神 经 网 络 总 共 得 到 10 000 个 手写 数字 以 及 它们 实际 所 表示 的 数字 。 
在 神经 网 络 学 过 手写 数字 及 其 对 应 标签 的 联系 之 后 ， 我 们 拿 1000 个 新 
的 手写 数字 (不 带 标 签 ) 来 测试 它 ， 看 看 它 是 否 能 够 全 部 识别 出 来 。 


测试 发 现 ， 神 经 网 络 从 1000 个 新 的 手写 数字 中 正确 识别 出 了 922 
个 ， 即 正确 率 达 到 了 92.2%。 图 11-4 是 一 张 列 联 表 ， 可 以 用 它 来 检查 神 
经 网 络 的 识别 情况 。 
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预测 的 数字 
aa 
0 1841 0 0 0 0 0 ji 0 0 0 
1 0 0 
2 1 1 
> o l 
S 4 0 5 
于 E 1 
AK 6 3 0 
7 0 P 
8 l 0 
9 


= 


总 计 91 128 115 104 103 85 85 103 91 95 1000 92 
11-4” 列 联 表 总 结 了 神经 网 络 的 表现 : 第 一 行 指出 ， 共 有 85 个 “0 ， 神 经 网 
络 正确 识别 出 84 个 ， 最 后 一 个 “0” 被 错误 地 识别 为 “6 ”。 最 后 一 列 
是 识别 准确 率 
从 图 1-4 可 以 看 到 ,，“0” 和 “1 ”的 手写 图 像 几 乎 全 部 被 正确 识别 出 来 
J, fi "a 的 手写 图 像 最 难 识别 。 接 下 来 详细 看 看 那些 被 识别 错 的 数字 。 


“2” 被 错误 识别 成 “7” 或 “8” 的 情况 大 约 占 83%。 虽 然 人 能 够 
轻松 识别 出 图 11-5 中 的 数字 ， 神 经 网 络 却 可 能 被 某 些 特征 难 住 ， 比 如 
“2” 的 小 尾巴 。 有 趣 的 是 ， 神 经 网 络 对 “3” 和 “5” 也 比较 困惑 (如 
11-6 所 示 )， 识 别 错误 的 情况 约 占 10%。 


11-5 ”错误 识别 “2 
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11-6 ”错误 识别 “3 和 “5” 


尽管 出 现 了 这 些 错 误 ， 但 是 神经 网 络 的 识别 速度 远 快 于 人 类 ， 并 且 
从 总 体 上 看 ， 神 经 网 络 的 识别 准确 率 很 高 。 


11.3 神经 网 络 的 构成 


为 了 识别 手写 数字 ， 神 经 网 络 使 用 多 层 神 经 元 来 处 理 输入 图 像 ， 以 
便 进 行 预 测 。 图 11-7 为 双 层 神经 网 络 示 意图 。 


俞 出 输入 


11-7 双 层 神经 网 络 示 意图 。 输 入 不 同 ， 但 古 输出 相同 ， 其 中 红色 表示 被 激 
活 的 神经 元 
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在 图 11-7 的 双 层 神经 网 络 中 ， 虽 然 输 入 是 “6” 的 两 幅 不 同形 态 的 
图 像 ， 但 症 输 出 是 一 样 的 ， 并 且 该 神经 网 络 使 用 不 同 的 神经 元 激活 路 
径 。 尽 管 每 一 个 神经 元 组 合 产生 的 预测 是 唯一 的 ， 但 是 每 一 个 预测 结 末 
稳 可 以 由 多 个 神经 元 组 合 实现 。 


神经 网 络 通 第 由 如 下 几 部 分 组 成 。 


O MAB: 该 层 处 理 输 入 图 像 的 每 个 像素 。 如 此 说 来 ， 神 经 元 的 

数量 应 该 和 输入 图 像 的 像素 数 一 样 多 。 为 简单 起 见 ， 图 11-7 把 
大 量 神经 元 “凝聚 ”成 一 个 贡 氮 。 
为 了 提高 预测 准确 度 ， 可 以 使 用 卷 积 层 。 卷 积 层 并 不 处 理 单个 
像素 ， 而 是 识别 像素 组 合 的 特征 ， 比 如 发 现 “6” 有 一 个 圈 和 一 
条 朝 上 的 尾巴 。 这 种 分 析 只 关 广 特征 是 否 出 现 ， 而 不 关注 出 现 
的 位 置 ， 所 以 即使 某 些 关键 特征 偏离 了 中 心 ， 神 经 网 络 仍 然 能 
够 正确 识别 。 这 种 特性 叫 作 平移 不 变性 。 

O 隐藏 层 : 在 像 双 进入 神经 网 络 之 后 ， 它 们 经 过 层 层 转换 ， 不 断 
提高 和 那些 标签 已 知 的 图 像 的 整体 相似 度 。 标 签 已 知 是 指 神经 
网 络 以 前 见 过 这 些 图 像 。 虽 然 转 换 得 越 多 ， 预 测 人 准确 度 吏 会 越 
高 , 但 是 处 理 时 间 会 明显 增加 。 一 般 来 说 , 几 个 隐藏 层 就 足够 了 。 
每 层 的 神经 元 数量 要 和 图 像 的 像素 数 成 比例 。 前 面 的 示例 使 用 
了 一 个 隐藏 层 ， 它 包含 500 个 神经 元 。 

O 输出 层 : 该 层 产 生 最 终 预 测 结 果 。 在 这 一 层 中 ， 神 经 元 可 以 只 
有 一 个 ， 也 可 以 和 结果 一 样 多 。 

O 损失 层 : 虽然 图 11-7 并 未 显示 损失 层 ， 但 是 在 神经 网 络 的 训练 
过 程 中 ， 损 失 层 是 存在 的 。 该 层 通 芝 位 于 最 后 ， 并 提供 有 关 输 
入 是 否 识 别 正确 的 反馈 ， 如 果 不 正确 ， 则 给 出 误差 量 。 

在 训练 神经 网 络 的 过 程 中 ， 损 失 层 至 关 重 要 。 大 预测 正确 ， K 
自 于 损失 层 的 反馈 会 强化 产生 该 预测 结果 的 激活 路 径 ;， 若 预测 
错误 ， 则 错误 会 沿 着 路 径 逆 同 返 回 ， 这 条 路 径 上 的 神经 元 的 沿 
活 条 件 束 会 被 重新 调整 ， 以 减少 错误 。 这 个 过 程 称 为 反 向 传播 。 
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通过 不 断 重 复 这 个 训练 过 程 ， 神 经 网 络 会 学 习 输 入 信 吕 和 正确 
输出 标签 之 间 的 联系 ， 并 且 把 这 些 联 系 作为 激活 规则 编 和 每 个 
神经 元 。 因 此 ， 为 了 提高 神经 网 络 的 预测 准确 度 ， 需 要 调整 管 
理 激活 规则 的 部 件 。 


11.4 ”激活 规则 


为 了 产生 预测 结 坟 ， 守 要 沿 着 一 条 路 丛 依 次 被 活 人 神经 元 。 每 个 神经 
元 的 溅 活 过 程 都 由 其 激活 规则 所 控制 ， 激 活 规则 指定 了 输入 信号 的 来 源 
和 强度 。 在 神经 网 络 的 训练 过 程 中 ， 激 活 规则 会 不 断 调整 。 


图 11-8 展示 了 神经 元 G 的 一 条 油 活 规则 ， 它 模拟 的 是 图 11-7 中 的 
第 一 个 场景 。 经 过 训练 ， 神 经 网 络 认 识 到 神经 元 G 和 上 一 层 的 神经 元 
A、C、D 有 联系 。 这 3 个 神经 元 中 的 任何 一 个 被 滞 活 ， 都 会 作为 输入 
信号 传递 给 神经 元 G。 


图 11-8 ”神经 元 激活 规则 示例 


这 些 联系 的 强度 各 不 相同 ， 联 系 强 度 也 被 称 为 权重 ， 记 作 w。 在 
图 11-8 中 ， 与 神经 元 C 相 比 (w = 1)， 神 经 元 A 激活 后 发 送 的 信号 更 
oh (w =3)。 联 系 也 是 有 方向 的 ， 例 如 神经 元 D (w = -1) 实际 上 会 减 
弱 传 送 给 神经 元 G 的 输入 信和 号 。 
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在 计算 神经 元 G 的 输入 信号 总 强度 时 ， 把 上 一 层 与 之 有 关联 的 所 
有 激活 神经 元 的 权重 加 起 来 。 如 采信 号 强度 大 于 指定 的 国 值 ， 神 经 元 G 
就 会 被 茹 活 。 在 图 11-8 中 ， 最 终 的 信号 强度 为 2 〈 即 3 - 1)， 由 于 神经 
元 G 的 国 值 为 3， 因 此 它 仍然 处 于 未 向 活 状 态 。 


民 好 的 激活 规则 有 助 于 产生 准确 的 预测 结 末 ， 其 关键 在 于 确定 合适 
的 权重 和 国 值 。 另 外 ， 神 经 网 络 的 其 他 参数 也 需要 调整 ， 比 如 隐藏 层 的 
数量 、 每 层 的 神经 元 数量 等 。 可 以 使 用 梯度 下 降 法 〈 详 见 6.3 9) 优化 


这 些 参数 。 


11.5 局 限 性 


尽 省 神经 网 络 能 在 一 定 程度 上 模拟 人 脑 ， 但 其 本 壬 仍然 存在 一 些 缺 
扣 。 为 了 克服 这 些 缺 点 ， 人 们 提出 了 各 种 各 样 的 方法 。 


D 需要 大 样本 : 神经 网 络 的 复杂 性 使 之 能 够 识别 市 有 复杂 特征 的 
输入 ,但 前 提 古 我 们 能 为 它 提 供 大 量 训练 数据 。 如 霖 训练 集 太 小 ， 
就 会 出 现 过 拟 合 问题 ( 详 见 1.3 市 )。 如果 很 难 獒 得 更 多 训练 数据 ， 
则 可 以 使 用 如 下 儿 种 拉 术 来 最 大 限度 地 降低 过 拟 合 风险 。 

m 二 次 取样 : 为 了 降低 神经 元 对 噪声 的 敏感 度 ， 需 要 对 神经 网 
络 的 输入 进行 “ 平 请 化 ”处 理 ， 即 针对 信和 号 样本 取 平 均值 ， 
这 个 过 程 叫 作 三 次 取样 。 以 图 像 处 理 为 例 ， 可 以 通过 二 次 取 
样 缩小 图 像 尺 寸 ， 或 者 降低 红 绿 监 3 个 颜色 通道 的 对 比 度 。 

E AS: 当 人 缺少 训练 数据 时 ， 可 以 通过 疝 每 幅 图 像 3| 入 晤 有 变 来 
产生 更 多 数据 。 每 幅 畸 变 图 像 禾 可 以 作为 新 的 输入 ， 以 此 扩 
大 训练 数据 鸭 规模 。 眶 变 应 该 能 够 反映 原 数 据 集 的 特征 。 以 
手写 数字 为 例 ， 可 以 旋转 图 像 ， 以 模拟 人 们 写字 的 角度 ， 或 
者 在 特定 的 点 进行 拉 伸 和 挤 压 〈 这 叫 作 们 性 变形 )， 从 而 把 手 
部 肌肉 不 受 控 制 而 拌 动 的 特点 表现 出 来 。 
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AF: WMA EH] UR REAR om wt TC WU E 
并 联系 ， 这 会 导致 出 现 过 拟 合 同 题 ， 因 为 小 的 神经 元 集群 之 
旧 彼 此 会 产生 过 度 依赖 。 为 了 解决 这 个 问题 ， 可 以 在 训练 期 
旧 随 机 丢弃 一 半 的 神经 元 。 这 些 遭 至 弃 的 神经 元 将 处 于 未 油 
活 状 态 ， 剩 下 的 神经 元 则 正常 工作 。 下 一 次 训练 丢弃 一 组 不 
同 的 神经 元 。 这 迫使 不 同 的 神经 元 协同 工作 ， 从 而 揭示 训练 
样本 所 包含 的 更 多 特征 。 


O 计算 成 本 高 : 训练 一 个 由 几 千 个 神经 元 组 成 的 神经 网 络 可 能 需 
要 很 长 时 间 。 一 个 向 单 的 解决 方法 是 升级 硬件 ,但 这 会 化 不 少 钱 。 
另 一 个 解决 方法 站 调整 算法 ， 用 稍 低 一 些 的 预测 准确 度 换取 更 
快 的 处 理 速 度 ， 常 用 的 一 些 方 法 如 下 。 


随机 梯度 下 降 法 : 为 了 更 新 菏 一 个 参数 ， 经 典 鸭 梯度 下 降 法 
CEJL 6.3 市 ) 在 一 次 迭代 中 使 用 所 有 训练 样本 。 当 数据 集 很 
大 时 ， 这 样 做 会 很 耗 时 ， 一 种 解决 方法 息 在 每 次 旭 代 中 只 

一 个 训练 样本 来 更 新 参数 。 这 个 方法 锌 称 为 随机 梯度 下 降 法 ， 
虽然 使 用 这 个 方法 得 到 的 最 终 参 数 可 能 不 是 最 优 的 ， 但 古 准 
确 度 不 会 太 低 。 

小 批 次 梯度 下 降 法 : 虽然 使 用 随机 梯度 下 降 法 能 够 提升 速度 ， 
但 了 最终 参 数 可 能 不 准确 ， 算 法 也 可 能 无 法 收 化 ， 导 致 攻 个 参 
数 上 下 波动 。 一 个 折 中 方法 是 每 次 旭 代 使 用 训练 样本 的 一 个 
子 集 ， 这 就 是 小 批 次 梯度 下 降 法 。 

全 连接 层 : 随 者 加 入 的 神经 元 越 来 越 多 ， 路 径 的 数量 至 指数 
增长 。 为 了 避免 查看 所 有 可 能 的 组 合 ， 可 以 使 初始 层 (处 理 
更 小 .更 低级 的 特征 ) 的 神经 元 部 分 连接 。 只 有 最 后 儿 层 (处 
理 更 大 、 更 高 级 的 特征 ) 才 对 相 邻 层 的 神经 元 进行 全 连接 。 


不 可 解释 : 神经 网 络 由 多 层 组 成 ， 每 层 部 有 儿 百 个 神经 元 ， 这 


些 神 经 元 由 不 同 的 激活 规则 控制 。 这 使 得 我 们 很 难 准 确 地 找到 
产生 正确 预测 结 末 的 输入 信号 组 合 。 这 一 点 和 第 6 草 介 绍 的 回 


归 


分 析 不 同 ， 回 归 分 析 能 够 明确 地 识别 重要 的 预测 变量 并 比较 
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EAI SR SS. SHARPER AY ORG” 特性 使 之 难以 证 明 其 使 用 得 当 ， 
在 涉及 伦理 问题 时 尤其 如 此 。 不 过 ， 人 们 正在 努力 研究 每 个 神 
经 元 层 的 训练 过 程 ， 以 期 了 解 单个 输入 信号 如 何 有 影响 最 终 的 预 
MER. 


尽管 存在 上 述 局 限 性 ， 但 是 神经 网 络 本 身 拥有 的 强大 能 力 使 之 得 以 
应 用 于 虚拟 助手 、 自 动 驾 驶 等 前 沿 领域 。 除 了 模拟 人 脑 之 外 ， 神 经 网 络 
在 一 些 领域 已 经 战胜 了 人 类 ， 比 如 谷歌 公司 的 AlphaGo 在 2015 年 首次 
战胜 了 人 类 棋 手 。 随 着 算法 不 断 改进 ， 以 及 计算 能 力 不 断 提升 ， 神 经 网 
络 将 在 物 联 网 时 代 发 挥 关 键 作 用 。 


11.6 ”小结 


Ch 神经 网 络 由 多 个 神经 元 层 组 成 。 训 练 期 间 ， 第 1 层 的 神经 元 首 
先 被 输入 数据 激活 ， 然 后 将 激活 状态 传播 到 后 续 各 层 的 神经 元 ， 
最 终 在 输出 层 产 生 预 测 结 未 。 

D 一 个 神经 元 是否 被 激活 取决 于 输入 信号 的 来 源 和 踢 度 ， 这 由 其 
激活 规则 指定 。 油 亩 规则 会 根据 预测 结 末 的 反 饥 不 断 调 区 ， 这 
个 过 程 被 称 为 反问 传播 。 

O 在 大 数据 集 和 先进 的 计算 硬件 可 用 的 情况 下 ， 神 经 网 络 的 表现 
最 好 。 然 而 ， 预 测 结 东 在 大 部 分 时 候 都 是 无 法 解释 的 。 


第 12 章 


A/B 测 试 和 多 崩 老 虎 机 


12.1 ìf AIB 测试 


假设 你 是 网 店 老板 ， 想 通过 广告 告诉 人 们 你 正在 促销 。 你 会 选 下 面 
哪 一 名 广告 语 呢 ? 


O 最 高 可 侍 5 折 优 惠 | 
O 您 选 购 的 商品 将 以 半价 销售 。 


尽管 两 句 话 的 意思 差不多 ， 但 其 中 一 句 可 能 比 另 一 句 更 具 说 服 力 。 
比如 ， 使 用 感叹 亏 表 达 兴 香 之 情 古 不 是 更 好 ? 数字 “5 eA ELL “AF 
价 ” 更 具 说 服 力 ? 

为 了 找到 冤案 ， 可 以 试 着 把 这 两 句 广告 语 分 别 展示 给 100 位 顾客 ， 
了 解 两 个 版 本 各 目的 点击 量 。 操 击 量 多 的 那 版 也 许 更 能 吸引 消费 者 ， 所 
以 应 在 随后 的 广告 宣传 活动 中 使 用 它 。 这 个 过 程 就 是 A/B 测试 : 比较 A 
版 广告 和 BR) EAR. 


12.2 AIB 测 研 的 局 限 性 


A/B 测试 有 两 大 问题 。 


O 测试 结果 具有 偶然 性 : WAS, "EDIT Er BEET 
BW) Se, AS fer MAGA ATE, ATLAS eM Aa, 


(Lee PAE BPA) el 
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O 洪 在 的 收入 损失 : 如 采 把 受 测 顾客 从 100 人 增加 到 200 A, Al 
么 看 到 粳 料 广告 条 人 数 也 会 增加 一 们 ,这 有 流失 顾客 的 风险 一 一 
那些 原本 可 能 购 闫 商品 的 顾客 因为 看 到 糟 料 的 广告 而 放弃 购 关 。 


这 两 个 问题 分 别 体现 了 AB 测试 中 的 两 个 权衡 因素 : 探索 和 利用 。 
如 果 增 加 广告 的 受 测 人 数 (探索 )， 那 么 可 以 提高 测试 结果 的 可 信 度 ， 
但 是 ， 这 样 做 会 失去 六 在 的 顾客 ， 他 们 本 来 会 购买 商品 (利用 )。 


那么 ， 应 该 如 何在 两 者 之 间 取 得 平衡 呢 ? 


12.3 epsilon 递减 策略 


A/B 测试 先 探 索 哪 版 广告 更 好 ， 而 后 再 在 宣传 活动 中 加 以 利用 。 实 
际 上 ， 并 不 需要 等 到 探索 完成 之 后 再 开始 利用 。 


如 果 在 前 100 个 训 贤 者 中 ，A 版 广告 的 点 击 量 比 B 版 广告 多 ， 那 么 
在 接 下 来 的 100 个 误 览 者 中 ， 可 以 把 A 版 广告 的 曝光 率 提高 到 60%， 同 
时 把 了 版 广告 的 曝光 率 降 低 到 40%。 这 样 一 来 ， 就 可 以 开始 利用 初期 结 
果 ， 同 时 继续 探索 B 版 广告 改善 表现 的 可 能 性 。 随 着 越 来 越 多 的 证 据 倾 
问 于 A 版 广告 ， 我们 逐 光 提高 它 的 皮 光 率 ， 同 时 降低 B 版 广告 的 曝光 率 。 


这 个 方法 采用 了 epsilon 递减 策略 。epsilon 指 的 是 探索 时 间 与 总 时 
则 的 比例 。 随 着 对 效果 较 好 的 广告 越 来 越 有 信心 ， 我 们 使 epsilon 值 递 
减 ， 如 图 12-1 所 示 。 这 个 方法 属于 强化 学 习 的 范 蝴 。 
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图 12-1 A/B 测试 由 探索 和 利用 前 后 两 个 阶段 组 成 ， 而 在 epsilon 递减 策略 中 ， 
探索 阶段 和 利用 阶段 是 分 散 的 ， 并 且 一 开始 时 探索 得 多 一 些 ， 越 接近 
尾声 探索 得 越 少 
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12.4 示例 : BRERA 


老虎 机 游戏 第 第 被 用 来 说 明 A/B 测试 和 epsilon 递减 策略 的 区 别 。 
IN ES NLD 5 Al, SAH A Frak A RM Hh EEE REAL PF 
广 ， 以 使 总 的 中 奖金 额 最 大 化 。 

老虎 机 有 一 个 绿 号 叫 “ 独 臂 强 盗 ”， 这 是 因为 它 似 乎 仅 赁 一 条 手臂 
束 能 把 玩家 的 钱 驴 走 ， 如 图 12-2 所 示 。 面 对 一 排 老虎 机 ， 采 用 何 种 策 
上 略 才 能 多 万 钱 呢 ”这 就 是 所 谓 的 多 辟 老 虎 机 问题 ， 现 在 特 指 资源 分 配 问 
题 ， 比 如 决定 投放 哪个 广告 、 芳 试 前 复习 哪些 内 容 、 资 助 哪 项 药物 研 


pr wil 


12-2 ”老虎 机 


假设 有 两 台 老 虎 机 A 和 Be 可 供 选 择 〈 如 表 12-1 所 示 )， 并 且 我 们 
的 钱 足 够 玩 2000 个 回合 。 每 个 回合 要 么 赢 1 美元 ， 要 么 没有 收益 。 


表 12-1 两 台 老 虎 机 的 返还 率 


老虎 机 A 的 返还 率 为 50%， 老 虎 机 B 的 则 为 40%。 但 是 ， 我 们 事 
先 并 不 知道 这 些 信息 。 那 么 问题 就 来 了 : BALA HES ta EYE? 


几 种 策略 对 比如 下 。 
O ERR: 如 末 随 机 选择 老虎 机 ， 平 均 会 顾 900 美元 。 
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O A/B 测试 : 如 采 采 用 A/B 测试 方法 ， 用 前 200 个 回合 探索 哪 台 
老 席 机 的 返还 率 更 高 ， 然 后 在 剩 下 的 1800 个 回合 中 选择 这 人 台 老 
BEML, ABA m 976 美元 。 但 是 这 样 做 有 个 问题 : 由 于 两 台 
老虎 机 的 返还 率 接近 ,因此 存在 误 判 的 可 能 性 ( 误 判 概率 是 8%)。 


为 了 降低 误 判 的 风险 ， 可 以 把 探索 范围 扩大 到 500 个 回合 。 这 
样 做 可 以 把 误 判 概率 降 到 1%， 但 是 平均 中 奖金 额 也 会 减少 到 
963 美元 。 


O epsilon 递减 策略 : 如 条 采用 epsilon 递减 策略 边 探索 边 利 用 ， 那 

么 平均 会 赢 984 美元 ， 并 且 误 判 概率 为 4%。 通 过 增加 探索 比例 

( 即 增 加 epsilon 值 )， 能 够 降低 误 判 概率 ， 但 仍 会 减少 平均 中 奖 

O 全 利用 : 如 条 一 开始 就 区 握 内 部 销 息 并 选择 返还 率 更 高 的 老虎 
机 A， 那 么 平均 会 赢 1000 美元 。 但 是 ， 这 个 假设 不 大 现实 。 

从 图 12-3 Wise eel, EDNER BDO F, KH epsilon 

递减 策略 的 收益 最 高 。 而 且 ， 由 于 存在 收 你 性 这 一 数学 特征 ， 因 此 epsilon 
递减 策略 能 确保 在 回合 数 足 够 多 的 情况 下 找 出 返还 率 更 高 的 老虎 机 。 


1000 


900 


全 探索 500 个 回合 ”200 个 回合 epsllon 全 利用 
之 后 利用 之 后 利用 递减 宁 略 


12-3 ”比较 不 同 策略 下 的 平均 中 奖金 额 
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12.5 胜 者 为 先 


多 管 老 席 机 问题 在 体育 运动 中 有 一 个 有 趣 的 用 例 。 在 执教 车 名 的 曼 
彻 斯 特 联 足 球 俱乐部 期 间 ， 路 多 斯 范 加 尔 采 用 了 一 个 非 稼 规 策 略 来 决 
定 昼 点 球 的 球员 。 


第 一 个 被 指定 昼 挟 球 的 球员 会 负 贡 到 底 ， 除 非 他 没有 打 进 球 。 接 下 
来 ， 新 换 的 球员 继续 负责 如 点 球 ， 如 朱 设 有 六 进 ， 束 再 换 一 名 球员 ， 依 
此 类 推 。 这 个 策略 叫 作 “ 胜 者 为 先 ”。 


如 打 在 老虎 机 游戏 中 运用 这 个 策略 ( 即 先 任意 选 一 台 老 虎 机 ， 启 了 
就 一 直 玩 ， 输 了 就 换 一 台 玩 ) ， 那 么 平均 能 电 909 RIC, GHG 
择 老 虎 机 和 好 一 些 。 频 蒙 地 换 老虎 机 ， 会 导致 探索 过 多 而 利用 过 少 。 而 
且 ,“ 胜 者 为 先 ” 策 略 只 根据 上 一 次 结 末 来 评 佑 老虎机， 这 忽视 了 老虎 
机 之 前 的 表现 。 显 然 ， 这 个 策略 不 太 理想 。 


12.6 epsilon 递减 策略 的 局 限 性 


虽然 epsilon 递减 策略 的 表现 很 出 色 ， 但 它 本 身 有 一 定 的 局 限 性 ， 
这 使 它 比 Ap 测试 更 难 实施 。 

采用 epsilon 递减 策略 的 关键 在 于 控制 好 epsilon (A, A0 HE epsilon 
值 递 减 得 过 慢 ， 就 会 失去 利用 老虎 机 的 机 会 ， 而 如 果 递 减 得 过 快 ， 就 可 
能 选 错 老 虎 机 。 


epsilon 值 的 最 佳 递减 速度 主要 取决 于 两 台 老 虎 机 返还 率 的 相似 程 
度 。 如 果 像 表 12-1 那样 高 度 相似 ， 那 么 epsilon 值 的 递减 速度 宜 缓慢 。 
采用 汤普森 取样 方法 ， 可 以 计算 epsilon 值 。 


epsilon 递减 荣 略 还 依赖 于 如 下 假 议 。 
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返还 率 恒 定 不 变 。 末 一 则 广告 可 能 在 早上 受 欢迎 ,在 晚上 则 不 然 ; 
而 一 则 广告 全 天 的 受 欢 迎 程度 可 能 痢 一 般 。 如 霖 比较 这 两 则 
广告 在 早上 的 受 欢 迎 程度 ， 就 会 得 出 不 淮 确 的 结论 。 

返还 率 与 上 一 次 游戏 无 关 。 广 告 出 现 的 次 数 越 多 ， 顾 客 束 越 有 
可 能 氮 击 它 。 这 巧 味 着 需要 反复 探索 才能 确定 黄 正 的 返还 率 。 
玩 游戏 和 观察 返还 率 之 间 的 延迟 极 小 。 如 琳 广 告 是 通过 电子 邮件 
发 送 的 ， 实 在 买 家 可 能 儿 天 后 才能 回应 。 这 让 我 们 无 法 立即 得 知 
真实 的 探索 结 末 ， 所 有 利用 行为 只 能 基于 不 完整 的 信息 进行 。 


尽管 如 此 ， 如 东 两 则 广告 都 不 符合 上 述 第 2 条 或 第 3 Ai, MBA 
错误 可 以 相互 抵消 。 比 如 ， 如 采 两 则 广告 都 是 通 过 电子 邮件 发 适 的 ， 那 
么 都 会 出 现 啊 应 延 玉 的 问题 ， 这 时 做 比较 仍旧 和 古 公平 的 。 


12.7 小 结 


LI 


多 臂 老 虎 机 问题 的 实质 是 如 何以 最 佳 方式 分 配 资源 一 一 是 应 该 
探索 新 的 可 能 性 ， 还 是 应 该 利用 已 有 的 一 切 ? 

一 种 策略 是 先 探索 可 用 选项 ， 然 后 把 所 有 剩余 资产 分 配给 表现 
最 佳 的 选项 。 这 个 策略 叫 作 A/B 测试 。 

另 一 种 策略 是 给 表现 最 佳 的 选项 逐 湖 分 配 更 多 的 资源 。 这 个 策 
略 叫 作 epsilon 递减 策略 。 

虽然 epsilon 递减 条 略 在 大 多 数 情 况 下 能 够 提供 比 A/B 测试 更 高 
的 回报 ， 但 是 确定 资源 分 配 的 最 佳 更 新 速度 并 非 易 事 。 
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附录 C 
调 三 参数 列表 


回归 分 析 

e 软 间隔 和 量 
支持 问 量 机 * 核 参数 

* 不 敏感 参数 


“终端 市 点 的 最 小 尺寸 
决策 树 “终端 下 点 的 最 大 数量 

© TTR BE 

"决策 树 的 所 有 参数 
随机 森林 © 决策 树 数 量 

© 每 次 拆 分 所 选 的 变量 数 


+ 隐藏 层 数量 

. 每 层 神经 元 数量 
神经 网 络 + 训练 选 代数 

. 学 习 速 度 

. 初始 权重 


附录 DD 
更 多 评价 指标 


对 于 如 何 定 义 和 惩 昼 不 同类 型 的 预 出 误差 ， 不 同 的 评价 指标 各 不 相 
同 。 本 附录 将 介绍 几 个 弟 用 的 评价 指标 ， 作 为 对 1.4 区 的 补充 。 


D.1 分 类 措 标 


接受 者 操作 特征 曲线 下 面积 常人 简称 为 曲线 下 面积 。 这 个 指标 允许 我 
们 在 最 大 化 正 例 率 和 节 小 化 假 正 例 率 之 间 做 权衡 。 


Ch 正 例 率 指 被 模型 正确 预测 为 正 类 别 的 样本 所 占 的 比例 。 
正 例 率 = 正 例 数 /( 正 例 数 + 假 负 例 数 ) 

Ch 假 正 例 率 指 被 模型 错误 预测 为 正 类 别 的 样本 所 占 的 比例 。 
假 正 例 率 = 假 正 例 数 / ( 假 正 例 数 + 负 例 数 ) 


在 极端 情况 下 ， 可 以 把 所 有 样本 全 部 预测 为 正 类 别 ， 以 此 实现 正 例 
率 最 大 化 ， 即 正 例 率 为 1。 虽然 这 样 做 可 以 避免 出 现 假 负 例 ， 但 会 明显 
增加 假 正 例 。 换 言 之 ， 我 们 必须 在 最 大 化 正 例 率 和 最 小 化 假 正 例 率 之 间 
做 权衡 。 


这 种 权衡 可 以 通过 接受 者 操作 特征 曲线 (也 称 ROC 曲线 ) 可 视 化 ， 
如 图 D-1 所 示 。 
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正 例 率 (%) 


假 正 例 率 (%) 


图 D-1 ROC 曲线 体现 了 最 大 化 正 例 率 和 最 小 化 假 正 例 率 之 间 的 权衡 


因为 模型 性 能 通过 ROC 曲线 下 方 的 面积 来 衡量 ， 所 以 该 指标 被 称 
为 曲线 下 面积 。 模 型 的 准确 度 越 高 ， 曲 线 越 罪 近 左 上 角 。 完 美的 预测 
模型 会 产生 一 条 曲线 下 面积 为 1 的 曲线 ， 即 曲线 下 面积 等 于 整个 图 形 
的 面积 。 相 比 之 下 ， 对 于 一 个 随机 预测 模型 ， 其 ROC 曲线 可 以 表示 为 
图 D-1 中 的 虚线 对 角 线 ， 即 曲线 下 面积 为 0.5。 


由 于 最 佳 预 测 模型 所 对 应 的 曲线 下 面积 最 大 ， 因 此 可 以 借助 其 
ROC 曲线 为 正 例 率 和 假 正 例 率 选 择 合适 的 国 值 。 


借助 ROC 曲线 可 以 选择 想 吉 人 免 的 误差 类 型 。 不 过 ， 还 可 以 使 用 对 
BUNA Fas TTA MR Ze 


A EREM REEE AER Ze, PERT Z K E A 
率 。 概 率 越 接近 100%， 模 型 就 越 相 信 顾 客 会 严 包 。 对 数 损失 指标 利用 
这 个 置信 度 来 校正 其 对 预测 误差 的 惩 广 。 具 体 来 说 ， 模 型 对 错误 预测 的 
fa ee, RET CE 
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在 图 D-2 中 ， 随 着 对 错误 预测 的 置信 度 接 近 最 大 值 ， 惩 罚 程度 陡 
升 。 举 例 来 说 ， 如 果 模 型 预测 顾客 买 鱼 的 概率 为 80%， 但 这 最 终 证 明 是 
错 的 ， 那 么 就 会 被 惩罚 0.7 分 。 然 而 ， 如 于 模型 错误 预测 顾客 买 鱼 的 概 
率 是 99%， 那 么 惩罚 分 数 将 高 达 2 分 。 


ZE Pr 
AE Ty 
O 


0 10 20 30 40 50 60 70 80 90 100 
对 错误 预测 的 置信 和 度 (%) 
图 D-2 ” 随 肴 模型 对 错误 预测 的 置信 和 度 升 高 ， 惩 昼 也 加 重 


由 于 对 数 损失 指标 根据 对 预测 结 琳 的 置信 度 来 调整 惩罚 程度 ， 因 此 
它 通 第 用 于 错误 预测 极其 有 害 的 情况 。 


D.2 回归 指标 


评价 回归 模型 的 一 个 简单 方法 是 平等 地 惩罚 所 有 预测 误差 ， 具 体 做 
法 是 对 所 有 数据 点 的 预测 值 和 实际 值 之 差 取 平 均值 。 这 个 指标 被 称 为 平 
均 绝对 误差 。 


1.4.2 市 介绍 了 均 方 根 误差 这 个 指标 ， 它 可 以 加 大 对 大 误差 的 惩 镜 
力度 。 除 了 芳 虑 误差 大 小 之 外 ， 还 可 以 通过 均 方 根 对 数 误差 把 误差 方 闫 
纳入 考虑 冰 围 。 以 预测 雨天 顾客 对 雨伞 的 需求 量 为 例 ， 如 末 相 比 于 高 
佑 ， 我 们 更 希望 避免 低估 ， 就 可 以 使 用 这 个 指标 。 低 佑 会 引起 顾客 不 
满 ， 进 而 造成 收入 损失 ， 高 估 则 只 和 需 增 加 库存 。 


KR 语 R 


A/B 测试 (A/B testing) : 用 于 比较 产品 A 和 产品 B 的 收益 。AB ill 
试 包含 两 个 阶段 :首先 是 探索 阶段 ， 即 以 相同 的 比例 测试 两 款 产 品 ， 从 
中 找 出 表现 更 好 的 产品 ， 然 后 是 利用 阶段 ， 即 癌 更 好 的 产品 投入 所 有 资 
源 ， 以 期 实现 利润 最 大 人 化。 进行 AB 测试 的 关键 是 在 探索 阶段 和 利用 阶 
段 之 间 取 得 平衡 。 


epsilon 递减 策略 (epsilon-decreasing strategy) : 这 种 强化 学 习 技 
术 用 于 分 配 资 源 ， 它 包括 两 个 彼此 交 又 的 阶段 :探索 阶段 和 利用 阶段 。 
epsilon 指 探索 时 间 与 总 时 间 的 比例 ， 随 着 最 佳 方案 的 相关 信息 越 来 越 
Z, epsilon (AKG). 


k JER (k-means clustering) : 这 种 无 监督 学 习 技 术 用 于 把 相似 
的 数据 点 划 入 同一 个 群 组 ， 其 中 大 指 群 组 数量 。 


k 最 近邻 (k-Nearest Neighbors) : 这 种 监督 学 习 技 术 根 据 某 个 数据 
点 周围 距离 最 近 的 数据 点 的 类 型 对 该 数据 点 进行 分 类 ， 其 中 上 是 用 作 参 
考 的 数据 点 的 个 数 。 


Louvain 方法 (Louvain method) : 这 种 无 监督 学 习 方 法 用 于 找 出 网 
络 中 的 群 组 ， 其 采用 的 方式 是 将 群 组 内 部 的 相互 作用 最 大 化 ， 同 时 把 群 
组 之 间 的 相互 作用 最 小 化 。 


PageRank 算法 (PageRank algorithm) : 用 于 找 出 网 络 中 占 主导 地 
位 的 节点 。 它 基于 节点 的 链接 数 以 及 链接 的 强度 和 来 源 对 节点 进行 排序 。 


变量 (variable): 用 于 描述 数据 点 。 变 量 又 叫 属 性 、 特 征 或 维度 ， 
包括 如 下 几 类 。 


108 | 术语 表 


O 二 值 变量 (binary variable): 最 简单 的 变量 类 型 ， 它 只 有 两 个 可 
选 值 (比如 性 别 )。 

O 分 类 变量 (categorical variable) : 这 种 变量 可 以 用 来 表示 有 两 个 
以 上 选择 的 情况 (比如 种 族 )。 

口 整 型 变量 (integer variable) :这 种 变量 用 来 表示 整数 (比如 年 龄 )。 

O 连续 变量 (continuous variable) : 这 种 变量 最 为 精细 ， 用 来 表示 


小 数 【比如 价格 )。 


-一 一 


标准 化 (standardization) : 用 于 把 所 有 变量 统一 至 
上 ， 类 似 于 使 用 百 分 位 数 表示 每 个 变量 。 


| 一 个 标准 尺度 


参数 调 优 (parameter tuning) : 这 是 一 个 调整 算法 设置 的 过 程 ， 目 
祭 是 提高 模型 的 预测 准确 度 ， 束 像 调 市 收音 机 的 频道 一 样 。 


测试 集 (test dataset) : 用 于 评估 预测 模型 的 准确 度 和 泛 化 能 力 。 先 
用 训练 集 生成 模型 ， 而 后 用 测试 集 来 测试 模型 。 


递归 拆 分 (recursive partitioning) : 指 反 复 拆 分 数据 样本 以 得 到 同 
质 组 。 决 策 树 的 生成 过 程 束 涉及 递归 拆 分 。 


EF (dropout): 用 于 防止 神经 网 络 模 型 出 现 过 拟 合 问题 。 每 次 训 
练 期 间 ， 随 机 丢弃 一 些 神 经 元 ， 以 此 迫使 不 同 的 神经 元 协同 工作 ， 以 揭 
示 训 练 样本 的 更 多 特征 。 


陡坡 图 (scree plot): 用 于 确定 合适 的 群 组 数量 。 陡 坡 图 有 着 广泛 
的 应 用 ， 从 肾 类 到 降 维 都 能 看 到 它 的 身影 。 最 佳 群 组 数量 通 第 出 现在 陡 
坡 图 曲线 的 拐弯 处 。 如 有 果 人 允许 有 更 多 的 群 组 ， 可 能 会 导致 模型 的 记 化 能 
力 下 降 。 


多 辟 老 虎 机 问题 (multi-arm bandit problem) : 指 资源 分 配 问 题 ， 比 
如 选择 哪 台 老虎 机 下 注 。 多 臂 老虎 机 这 个 名 字源 于 老虎 机 的 纯 号 “ 独 臂 
强盗 。 之 所 以 有 这 样 一 个 绰号 ， 是 因为 老虎 机 似乎 仅 赁 一 条 手臂 Chi 
杆 ) 就 能 骗 走 玩家 的 钱 。 
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多 重 共 线性 (multicollinearity) : 这 是 回归 分 析 中 的 一 个 问题 。 如 
条 回归 模型 包含 高 度 相 关 的 预测 变量 ， 那 么 这 些 变量 的 权重 会 失真 。 


二 次 取样 (subsampling) : 用 于 防止 神经 网 络 模型 出 现 过 拟 合 问 
题 ， 有 具体 做 法 是 通过 取 平 均值 对 输入 的 训练 数据 进行 “ 平 斌 化 ”处 理 。 
比如 ， 可 以 通过 二 次 取样 缩小 图 像 尺 寸 或 降低 颜色 对 比 度 。 


KE (backpropagation) : 指 在 神经 网 络 中 给 出 有 关 预 测 是 否 
准确 的 反馈 。 预 测 错误 会 治 着 路 径 反 向 传播 ， 这 条 路 径 上 的 神经 元 会 重 
新 调整 其 激活 条 件 ， 以 减少 错误 。 

分 类 (classification) : 这 是 对 一 类 监督 学 习 技 术 的 统称 ， 运 用 这 些 


技术 ， 可 以 预测 二 元 值 和 分 类 值 。 


关联 规则 (association rule) : 这 是 一 个 无 监督 学 习 技 术 ， 用 来 揭示 
数据 点 之 间 是 如 何 关联 的 ， 比 如 找 出 顾客 经 常 同 时 购买 哪些 商品 。 识 别 
关联 规则 的 常用 指标 有 3 个 : 


J (X) 的 支持 度 表 示 X 项 出 现 的 频率 ， 

Ch INN 的 置信 度 表示 当 项 出 现时 Y 项 同时 出 现 的 频率 ， 

a {X Y} 的 提升 度 表 示 X 项 和 Y 项 一 同 出 现 的 频率 ， 并 且 考 虑 
每 项 各 自 出 现 的 频率 。 


WHE (overfitting) : 发 生 过 拟 合 时 ， 预 测 模 型 对 数据 中 的 随机 波 
动 过 于 敏感 ， 并 日 将 其 误 以 为 是 持 信 模式。 过 拟 合 模型 对 当前 数据 有 很 
高 的 预测 准确 度 ， 但 是 沁 化 能 力 不 强 ， 即 对 未 知 数据 的 预 训 效果 不 佳 。 


核 技 巧 (kernel trick): 用 于 把 数据 点 映射 到 高 维 空间 。 在 高 维 空 
间 中 ， 可 以 使 用 直线 把 数据 点 分 开 。 这 些 直线 容易 计算 ， 并 且 当 映射 回 
低 维 空间 时 也 很 容易 转换 成 曲线 。 


SS (black box): 这 个 术语 用 来 描述 不 可 解释 的 预测 模型 。 在 这 
样 的 模型 中 ， 不 存在 可 用 于 推导 预测 结 来 的 明确 公式 .。 
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回归 分 析 (regression analysis) :这 种 监督 学 习 技 术 用 于 找 出 最 佳 
拟 合 线 ， 使 得 尽 可 能 多 的 数据 点 位 于 这 条 线 附 近 。 最 佳 拟 合 线 由 带 权 重 
的 组 合 预测 变量 得 到 。 


混淆 矩阵 (confusion matrix) : 用 于 评价 分 类 预测 模型 的 准确 度 。 
除了 总 体 分 类 准确 度 之 外 ， 混 清和 矩阵 还 会 给 出 假 正 例 率 和 假 负 例 率 。 


集成 方法 (ensembling) : 用 于 组 合 多 个 预测 模型 ， 借 以 提高 预测 
准确 度 。 集 成 方法 之 所 以 非常 有 效 ， 是 因为 正确 的 预测 结果 往往 彼此 强 
化 ， 错 误 的 预测 结果 则 相互 抵消 。 

激活 规则 (activation rule) : 用 于 指定 激活 神经 元 所 必需 的 输入 信 


写 的 来 源 和 强度 。 神 经 元 的 溅 活 状 态 在 神经 网 络 中 传播 ， 最 后 产生 预测 
结 采 。 


监督 学 习 (supervised learning) : 这 是 对 一 类 机 器 学 习 算法 的 统称 。 
之 所 以 把 这 些 算 法 称 为 监督 学 习 算 法 ， 是 因为 它们 的 预测 都 基于 数据 中 
已 有 的 模式 。 


降 维 (dimension reduction) : 指 减 少 变量 的 个 数 ， 比 如 通过 组 合 高 
度 相 关 的 变量 来 实现 。 


交叉 验证 (cross-validation) : 这 个 方法 通过 把 数据 集 划 分 成 若干 组 
来 对 模型 进行 反复 测试 ， 从 而 最 大 限度 地 利用 可 用 的 数据 。 在 单 次 迭 
代 中 ， 除 了 某 一 组 之 外 ， 其 他 各 组 都 被 用 来 训练 预测 模型 ， 而 后 使 用 留 
下 的 那 组 测试 模型 。 这 个 过 程 会 重复 进行 ， 直 到 每 一 组 都 测试 过 模型 ， 
并 且 只 测试 过 一 次 。 模 型 的 最 终 预 测 准确 度 取 所 有 迭代 评估 结果 的 平 
均值 。 


决策 树 (decision tree): 这 种 监督 学 习 技 术 通 过 一 系列 二 元 选择 题 
来 拆 分 数据 样本 ， 以 获得 同 质 组 。 虽 然 决 策 树 容易 理解 和 可 视 化 ， 但 也 
容易 出 现 过 拟 合 问题 。 
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均 方 根 误差 (root mean squared error) : 这 个 指标 用 来 评价 回归 预 
测 的 准确 度 ， 尤 其 可 用 于 避免 较 大 的 误差 。 因 为 每 个 误差 都 要 取 平 方 ， 
所 以 大 误差 会 被 放大 ， 这 使 得 该 指标 对 异常 值 极其 敏感 。 

平移 不 变性 (translational invariance) : 这 是 卷 积 神经 网 络 的 一 个 特 
性 ， 指 的 是 图 像 特征 的 位 置 并 不 影响 神经 网 络 对 这 些 特 征 的 识别 。 


RWS (underfitting) : 发 生 欠 拟 合 上 时， 预测 模型 过 于 迟钝 ， 以 至 
于 忽略 了 数据 中 的 基本 模式 。 欠 拟 合 模型 很 可 能 忽视 数据 中 的 重要 趋 
， 这 会 导致 预 测 模 型 对 当前 数据 和 未 知 数据 的 预测 准确 度 较 差 。 


CS 


强化 学 习 (reinforcement learning) : «a NM 25 HL EE DIr 
称 ， 指 使 用 数据 中 的 模式 做 预测 ， 并 根据 越 来 越 多 的 反馈 结果 不 断 改 进 。 


神经 网 络 (neural network) : 这 种 监督 学 习 技 术 使 用 神经 元 层 来 进 
行 学 习 和 和 预测。 虽然 神 经 网 络 的 预测 准确 度 很 高 ， 但 其 复杂 性 使 得 大 部 
分 预测 结果 难以 解释 。 


随机 森林 (random forest) : 这 种 监督 学 习 技 术 通 过 随机 选择 不 同 
的 二 元 选择 题 来 生成 多 棵 决策 树 ， 然 后 综合 这 些 决 策 树 的 预测 结果 。 


特征 工程 (feature engineering) : 指 创造 性 地 产生 新 变量 的 过 程 ， 
比如 通过 重新 编码 生成 一 个 变量 ， 或 组 合 多 个 变量 。 


梯度 提升 (gradient boosting) : 这 种 监督 学 习 技 术 用 于 生成 多 棵 决 
策 树 。 与 随机 森林 不 同 ， 梯 度 提升 通过 有 策略 地 选择 不 同 的 二 元 选择 题 
来 生成 每 个 分 支 ， 从 而 逐步 提高 决策 树 的 预测 准确 度 。 然 后 ， 为 每 棵 树 
的 预测 结 末 赋 了 予 一 定 的 权重 (决策 树 越 靠 后 ， 权 重 越 大 ) ， 并 组 合 所 有 
结果 ， 从 而 产生 最 终 的 预测 结果 。 


梯度 下 降 (gradient descent) : 这 种 方法 用 于 调整 模型 参数 。 它 先 
为 一 组 参数 值 估 计 初 始 值 ， 而 后 通过 一 个 迭代 过 程 ， 把 这 些 估计 值 应 用 
于 每 个 数据 点 做 预测 ， 然 后 调整 估计 值 ， 以 减少 整体 预测 误差 。 
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无 监督 学 习 (unsupervised learning) : Wa xt}—2p Las FRAY 
统称 ， 这 些 算法 用 于 发 现 数据 中 的 隐藏 模式 。 之 所 以 把 这 些 算 法 称 为 无 
监督 学 习 算 法 ， 是 因为 我 们 并 不 知道 要 找 的 模式 是 什么 ， 而 是 要 依靠 算 
法 来 发 现 。 


先 验 原则 (apriori principle) : 如 果 某 个 项 集 出 现 得 不 频繁 ， 那 么 
包含 它 的 任何 更 大 的 项 集 必 定 也 出 现 得 不 频繁。 先 验 原则 有 助 于 减少 需 
要 考虑 的 项 集 组 合 的 个 数 。 


相关 系数 (correlation coefficient) : 用 于 衡量 两 个 变量 之 间 的 线性 
关系 。 相 关系 数 的 取 值 范围 是 -1 到 1， 它 提供 了 两 部 分 信息 。 


O 关联 强度 : 当 相 关系 数 为 -1 或 1 时 ,关系 最 强 ; 当 相关 系数 为 0 时 ， 
O KAI: 当 两 个 变量 同 同 变化 时 ， 相 关系 数 为 正 ， 人 否则 为 负 。 


训练 集 (training dataset) : 用 于 生成 预测 模型 。 模 型 生成 之 后 ， 再 
用 测试 集 评 佰 模型 的 预测 准确 度 。 


验证 (validation) : 指 评估 模型 对 新 数据 的 预测 准确 度 。 具 体 做 法 
古 把 当前 的 数据 集 划 分 成 两 部 分 : 一 部 分 古训 练 集 ， 用 来 生成 和 调整 预 
测 模 型 ， 即 一 部 分 征 测 试 集 ， 用 来 充当 新 数据 并 评估 模型 的 预 负 叭 确 度 。 


正则 化 (regularization) : 用 于 防止 预测 模型 出 现 过 拟 合 问 题 ， 具 
体 做 法 是 引入 惩罚 参数 ， 通 过 人 为 增 大 预测 误差 对 模型 复杂 度 的 增加 进 
行 惩 罚 。 这 使 得 我 们 在 优化 模型 参数 时 需要 同时 考虑 复杂 度 和 准确 度 。 

支持 向 量 机 (support vector machine) : 这 种 监督 学 习 技 术 用 于 把 数 


据点 分 为 两 组 ， 有 具体 做 法 是 在 两 组 的 外 围 数据 点 〈 也 叫 支 持 癌 量 ) 的 中 
间 画 一 条 分 界线 。 它 使 用 核 技巧 来 高 效 地 求 得 之 凸 弧 的 决策 边界 。 


主 成 分 分 析 (principal component analysis) : 这 种 无 监督 学 习 技 术 
把 数据 中 富 舍 信息 的 变量 组 合成 新 变量 ， 以 此 减少 要 分 析 的 变量 个 数 。 
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自助 聚集 法 (bootstrap aggregating) : 用 于 生成 数 千 棵 彼此 不 相关 
的 决策 树 ， 它 们 共同 产生 预测 结果 ， 从 而 避免 出 现 过 拟 合 问题 。 每 棵 树 
由 训练 数据 的 一 个 随机 子 集 生 成 ， 并 且 每 次 拆 分 时 都 选用 预测 变量 的 一 
个 随机 子 集 。 


最 佳 拟 合 线 (best-fit line): 回归 分 析 常 用 的 趋势 线 ， 它 使 绝 大 部 
分 数据 后 卿 位 于 其 附近 。 
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